现在ai吹的这么厉害，有没有可以多人声分离的工具

midearth 发表于 2024-3-3 09:23

本帖最后由 midearth 于 2024-3-3 09:50 编辑

就是一段音轨有多个人说话，能不能把其中某个人的声音提取出来。
因为基本都是轮流说话，所以手动截取某些时间段也行，但有没有工具可以自动做到这点了？
补充下，是音频分离，不是转写，自己用，要免费的

今天你提了吗 发表于 2024-3-3 09:36

飞书妙记

moyuzhijia 发表于 2024-3-3 09:38

有很多支持会议记录的工具

白左发表于 2024-3-3 12:23

win8 发表于 2024-3-3 13:17

研究过，目前是能识别多说话人，但是不能完全识别

Gazzz 发表于 2024-3-3 14:30

免费的试一下IBM Watson和Google Cloud，之前试过还过得去
如果是针对汉语的可以试试讯飞和企鹅，不过企鹅的是商用的

一步到位做音频分离的我印象里现在还没有，不过既然你都提了基本都是轮流说话，没有重叠的情况下，ASR过后拿结果的时间段去调ffmpeg或者gstreamer去切不就好了

页: [1]

Stage1st's Archiver

现在ai吹的这么厉害，有没有可以多人声分离的工具