天知道 发表于 2025-3-16 21:35

求一个可分辨说话人、录音转文字的离线软件

一直在使用WPS会员的录音转文字来记录自己的工作电话和录音,但现在感觉一月360分钟不够了,所以需要一个可以本地、免费的或者可使用AI增加准确度但不要太贵(比如一个小时语音转换时花费最好低于0.5元)的语音转文字 ,同时能标识不同说话人的软件。

https://bbs.saraba1st.com/2b/forum.php?mod=viewthread&tid=2247925

这个帖子里面的推荐的 CapsWriter-Offline 主要用于自己的语音转文字,无法对多说话人进行标识,同时基本不分段,有点不太好。

另外腾讯的语音识别我也试过,准确率感觉还行,就是太贵,差不多要1.5元/小时了。

Augusty 发表于 2025-3-17 00:20

cy同蹲。

之前研究过Azure的说话人识别,但是这项功能2025 年9 月30 日之后就被微软官方弃用了。。也没有检索到可以实现说话人识别的离线大模型。蹲个大伙的实现👀

junqqq999 发表于 2025-3-17 08:01

这个我在公安局见过,自动识别警察和嫌疑人的口供~~~好像就是科大讯飞的~~~~

天知道 发表于 2025-3-17 09:30

junqqq999 发表于 2025-3-17 08:01
这个我在公安局见过,自动识别警察和嫌疑人的口供~~~好像就是科大讯飞的~~~~ ...

讯飞我早期用过,印象中非常贵,好像是1分钟就要1毛多吧?

liveuq 发表于 2025-3-17 09:38

科大买他的录音笔好像可以免费用在线服务,不过我觉得在复杂环境(有人插嘴,收音较差)下多人识别的效果不是很好。虽然能识别出不同人,但是文字也有错误地方(随意谈话而非发言稿)

Fuero 发表于 2025-3-17 09:41

买个小米15用系统录音?

天知道 发表于 2025-3-17 12:00

Fuero 发表于 2025-3-17 09:41
买个小米15用系统录音?

系统录音那个文字整理一团糟。。。不过我只用过MIUI12的。

天知道 发表于 2025-3-17 12:04

liveuq 发表于 2025-3-17 09:38
科大买他的录音笔好像可以免费用在线服务,不过我觉得在复杂环境(有人插嘴,收音较差)下多人识别的效果不 ...

目前主要是通话、微信录音 这块,暂时不考虑增加设备(NoMoney)

Nonameno 发表于 2025-3-17 12:09

录音丢给豆包?

论坛助手,iPhone

紧那罗 发表于 2025-3-17 12:10

> 一个小时语音转换时花费最好低于0.5元
据我所知符合这个条件的应该是没有,国内外云服务价格应该都比这个高。本地硬件支持的话,whisperX我觉得挺好。
带分离说话人,精准时间轴

—— 来自 鹅球 v3.3.96-alpha

月埜ヒスイ 发表于 2025-3-17 12:34

目前这个东西你要达到基本不需要人工校对的就是贵
我都觉得那些效果好的贵的,是不是其实有真人在ai分析完了帮你人工校对的。。

lyflyflxf 发表于 2025-3-18 06:22

飞书的妙记目前是免费的,可分辨说话的人,准确率比较高吧

—— 来自 鹅球 v3.4.98

琉璃苑軒風 发表于 2025-3-18 08:57

你如果长期用,不如买讯飞的录音笔

0.5/h的单价当下模型配置还不现实,电费人都回不去,不是促销引流做不到这个价格的

—— 来自 鹅球 v3.3.96-alpha

浅仓透透 发表于 2025-3-18 10:42

飞书包括市面上的AI功能,还有一些免费的转写我也都用过。
如果你是长期用的话,我的方案是买个三四百的讯飞录音笔。
录音笔有两种权益,一种是赠送的免费转写时长,这个是支持外部语音的,一般送10小时到几十小时。

另一种是录音笔自己的录音内容,用就支持转写和APP内的所有功能,能够实现多人会话交谈的分类和分别。

所以遇到外部录音的时候,二次用录音笔转录就是了。

dragon_dusts 发表于 2025-3-18 10:56

我也有类似的需求,也曾经尝试本地部署ai/买api这种,但是1.我个人能力有限,没有精力深入研究;2.事情压的紧,最后还是讯飞听见。花钱买省心了,供参考。

宏. 发表于 2025-3-18 11:10

本地跑现阶段不现实,这个需求我研究过,花钱是最简单的,如果只要求摘要不要求逐字,最好的办法是丢给豆包

天知道 发表于 2025-3-18 13:46

谢谢楼上各位推荐,那我目前手机还是使用WPS会员;后期准备买一个讯飞录音笔吧(估计在三季度),查看了一下,感觉比较好携带,同时外形不显眼的似乎是H1PRO这个型号?
也请推荐一下其他型号:主要是方便携带,尽量不引人注目(毕竟主要是给自己方便整理客户的问题和要求等,可不想让客户太介意)

noahhhh 发表于 2025-3-18 13:54

我买的是科大讯飞的电子纸,不过贵很多了

starash 发表于 2025-3-18 14:03

我推荐buzz。

酱豆腐 发表于 2025-3-18 14:09

https://github.com/jianchang512/stt   这个项目就是需要一**显的电脑 之前在一台1060的机器上用过,可以把领导1个多小时的会议变成文字,然后你再发给AI总结 立马一篇会议纪要就差不多有了。

紧那罗 发表于 2025-3-18 19:02

讯飞我之前用过2年讯飞语记 说实话体验不太好
当时讯飞的产品巨抽象 讯飞听见只有时长包 价格巨贵
讯飞语记有包月的套餐 价格相对实惠 但是app不好用 多端协同有问题 很长一段时间电脑端看不到手机某个版本之后的新录音

楼主你不如先说说清楚需求转录有什么现有的设备 转录的时效要求

宏. 发表于 2025-3-18 21:14

天知道 发表于 2025-3-18 13:46
谢谢楼上各位推荐,那我目前手机还是使用WPS会员;后期准备买一个讯飞录音笔吧(估计在三季度),查看了一 ...

录音钥匙扣录音胸牌之类的东西多的是,讯飞你有账号的时候随便用什么东西录音再上传就是了,但其实这种微型录音笔效果还不如好一点的手机,提前打开手机录音,然后随手放在桌子上谁知道你在录音啊

天知道 发表于 2025-3-18 22:04

紧那罗 发表于 2025-3-18 19:02
讯飞我之前用过2年讯飞语记 说实话体验不太好
当时讯飞的产品巨抽象 讯飞听见只有时长包 价格巨贵
讯飞语记 ...

主楼没说清楚:用的就是手机;红米手机可以自动录音通话与微信语音/视频,形成的文件是AAC和MP3,我会手动全转成MP3;同时出差时会在与客户现场交流时使用手机录音功能。
每天大概通话录音约半小时,出差时全天与客户谈话差不多要2到3个小时。
以上录音文件我都会在晚上统一同步到电脑上,所以主要的处理平台是电脑。
以前使用WPS会员的那个录音转文字,基本够用,但近两月出差太多了,导致不太够用了,所以想找个免费或低价的转文字、区分说话人的方案。

天知道 发表于 2025-3-18 22:05

宏. 发表于 2025-3-18 21:14
录音钥匙扣录音胸牌之类的东西多的是,讯飞你有账号的时候随便用什么东西录音再上传就是了,但其实这种微 ...

我目前就是这样用的,但这样的问题就是没有一个廉价方案来整理成文字,时间长了忘记就麻烦。

nozomitech 发表于 2025-3-19 01:26

这不就whisper吗,最大的large V2/V3模型也就3个多G大小,只要不是烂到离谱的机器都能跑得起来,自己部署不来网上有打包好的傻瓜式软件,发言人识别,AI总结和翻译(当然需要API)都是可以实现的,断句的话随缘,只能说80%的情况下是好使的,可以手动设置每句最大长度一定程度缓解AI没断句然后一段话特别特别长的情况。我觉得现阶段应该也不存在完全保证能断好句的AI转写模型。
页: [1]
查看完整版本: 求一个可分辨说话人、录音转文字的离线软件