现在ai吹的这么厉害,有没有可以多人声分离的工具
本帖最后由 midearth 于 2024-3-3 09:50 编辑就是一段音轨有多个人说话,能不能把其中某个人的声音提取出来。
因为基本都是轮流说话,所以手动截取某些时间段也行,但有没有工具可以自动做到这点了?
补充下,是音频分离,不是转写,自己用,要免费的
飞书妙记 有很多支持会议记录的工具 研究过,目前是能识别多说话人,但是不能完全识别 免费的试一下IBM Watson和Google Cloud,之前试过还过得去
如果是针对汉语的可以试试讯飞和企鹅,不过企鹅的是商用的
一步到位做音频分离的我印象里现在还没有,不过既然你都提了基本都是轮流说话,没有重叠的情况下,ASR过后拿结果的时间段去调ffmpeg或者gstreamer去切不就好了
页:
[1]