找回密码
 立即注册
查看: 2574|回复: 24

[软件] 求一个可分辨说话人、录音转文字的离线软件

[复制链接]
     
发表于 2025-3-16 21:35 | 显示全部楼层 |阅读模式
一直在使用WPS会员的录音转文字来记录自己的工作电话和录音,但现在感觉一月360分钟不够了,所以需要一个可以本地、免费的或者可使用AI增加准确度但不要太贵(比如一个小时语音转换时花费最好低于0.5元)的语音转文字 ,同时能标识不同说话人的软件。

https://bbs.saraba1st.com/2b/for ... ead&tid=2247925

这个帖子里面的推荐的 CapsWriter-Offline 主要用于自己的语音转文字,无法对多说话人进行标识,同时基本不分段,有点不太好。

另外腾讯的语音识别我也试过,准确率感觉还行,就是太贵,差不多要1.5元/小时了。
回复

使用道具 举报

     
发表于 2025-3-17 00:20 | 显示全部楼层
cy同蹲。

之前研究过Azure的说话人识别,但是这项功能2025 年9 月30 日之后就被微软官方弃用了。。也没有检索到可以实现说话人识别的离线大模型。蹲个大伙的实现👀
回复

使用道具 举报

     
发表于 2025-3-17 08:01 | 显示全部楼层
这个我在公安局见过,自动识别警察和嫌疑人的口供~~~好像就是科大讯飞的~~~~
回复

使用道具 举报

     
 楼主| 发表于 2025-3-17 09:30 | 显示全部楼层
junqqq999 发表于 2025-3-17 08:01
这个我在公安局见过,自动识别警察和嫌疑人的口供~~~好像就是科大讯飞的~~~~ ...

讯飞我早期用过,印象中非常贵,好像是1分钟就要1毛多吧?
回复

使用道具 举报

     
发表于 2025-3-17 09:38 来自手机 | 显示全部楼层
科大买他的录音笔好像可以免费用在线服务,不过我觉得在复杂环境(有人插嘴,收音较差)下多人识别的效果不是很好。虽然能识别出不同人,但是文字也有错误地方(随意谈话而非发言稿)
回复

使用道具 举报

     
发表于 2025-3-17 09:41 来自手机 | 显示全部楼层
买个小米15用系统录音?
回复

使用道具 举报

     
 楼主| 发表于 2025-3-17 12:00 | 显示全部楼层
Fuero 发表于 2025-3-17 09:41
买个小米15用系统录音?

系统录音那个文字整理一团糟。。。不过我只用过MIUI12的。
回复

使用道具 举报

     
 楼主| 发表于 2025-3-17 12:04 | 显示全部楼层
liveuq 发表于 2025-3-17 09:38
科大买他的录音笔好像可以免费用在线服务,不过我觉得在复杂环境(有人插嘴,收音较差)下多人识别的效果不 ...

目前主要是通话、微信录音 这块,暂时不考虑增加设备(NoMoney)
回复

使用道具 举报

     
发表于 2025-3-17 12:09 | 显示全部楼层
录音丢给豆包?

论坛助手,iPhone
回复

使用道具 举报

     
发表于 2025-3-17 12:10 来自手机 | 显示全部楼层
> 一个小时语音转换时花费最好低于0.5元
据我所知符合这个条件的应该是没有,国内外云服务价格应该都比这个高。本地硬件支持的话,whisperX我觉得挺好。
带分离说话人,精准时间轴

—— 来自 鹅球 v3.3.96-alpha

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

发表于 2025-3-17 12:34 | 显示全部楼层
目前这个东西你要达到基本不需要人工校对的就是贵
我都觉得那些效果好的贵的,是不是其实有真人在ai分析完了帮你人工校对的。。

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-18 06:22 来自手机 | 显示全部楼层
飞书的妙记目前是免费的,可分辨说话的人,准确率比较高吧

—— 来自 鹅球 v3.4.98

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-18 08:57 来自手机 | 显示全部楼层
你如果长期用,不如买讯飞的录音笔

0.5/h的单价当下模型配置还不现实,电费人都回不去,不是促销引流做不到这个价格的

—— 来自 鹅球 v3.3.96-alpha

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-18 10:42 | 显示全部楼层
飞书包括市面上的AI功能,还有一些免费的转写我也都用过。
如果你是长期用的话,我的方案是买个三四百的讯飞录音笔。
录音笔有两种权益,一种是赠送的免费转写时长,这个是支持外部语音的,一般送10小时到几十小时。

另一种是录音笔自己的录音内容,用就支持转写和APP内的所有功能,能够实现多人会话交谈的分类和分别。

所以遇到外部录音的时候,二次用录音笔转录就是了。

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-18 10:56 | 显示全部楼层
我也有类似的需求,也曾经尝试本地部署ai/买api这种,但是1.我个人能力有限,没有精力深入研究;2.事情压的紧,最后还是讯飞听见。花钱买省心了,供参考。

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅;讯飞听见感觉好贵。.

查看全部评分

回复

使用道具 举报

     
发表于 2025-3-18 11:10 | 显示全部楼层
本地跑现阶段不现实,这个需求我研究过,花钱是最简单的,如果只要求摘要不要求逐字,最好的办法是丢给豆包

评分

参与人数 1战斗力 +1 收起 理由
天知道 + 1 好评加鹅

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-3-18 13:46 | 显示全部楼层
谢谢楼上各位推荐,那我目前手机还是使用WPS会员;后期准备买一个讯飞录音笔吧(估计在三季度),查看了一下,感觉比较好携带,同时外形不显眼的似乎是H1PRO这个型号?
也请推荐一下其他型号:主要是方便携带,尽量不引人注目(毕竟主要是给自己方便整理客户的问题和要求等,可不想让客户太介意)
回复

使用道具 举报

     
发表于 2025-3-18 13:54 来自手机 | 显示全部楼层
我买的是科大讯飞的电子纸,不过贵很多了
回复

使用道具 举报

     
发表于 2025-3-18 14:03 | 显示全部楼层
我推荐buzz。
回复

使用道具 举报

发表于 2025-3-18 14:09 | 显示全部楼层
https://github.com/jianchang512/stt   这个项目就是需要一**显的电脑 之前在一台1060的机器上用过,可以把领导1个多小时的会议变成文字,然后你再发给AI总结 立马一篇会议纪要就差不多有了。
回复

使用道具 举报

     
发表于 2025-3-18 19:02 | 显示全部楼层
讯飞我之前用过2年讯飞语记 说实话体验不太好
当时讯飞的产品巨抽象 讯飞听见只有时长包 价格巨贵
讯飞语记有包月的套餐 价格相对实惠 但是app不好用 多端协同有问题 很长一段时间电脑端看不到手机某个版本之后的新录音

楼主你不如先说说清楚需求  转录有什么现有的设备 转录的时效要求
回复

使用道具 举报

     
发表于 2025-3-18 21:14 来自手机 | 显示全部楼层
天知道 发表于 2025-3-18 13:46
谢谢楼上各位推荐,那我目前手机还是使用WPS会员;后期准备买一个讯飞录音笔吧(估计在三季度),查看了一 ...

录音钥匙扣录音胸牌之类的东西多的是,讯飞你有账号的时候随便用什么东西录音再上传就是了,但其实这种微型录音笔效果还不如好一点的手机,提前打开手机录音,然后随手放在桌子上谁知道你在录音啊
回复

使用道具 举报

     
 楼主| 发表于 2025-3-18 22:04 | 显示全部楼层
紧那罗 发表于 2025-3-18 19:02
讯飞我之前用过2年讯飞语记 说实话体验不太好
当时讯飞的产品巨抽象 讯飞听见只有时长包 价格巨贵
讯飞语记 ...

主楼没说清楚:用的就是手机;红米手机可以自动录音通话与微信语音/视频,形成的文件是AAC和MP3,我会手动全转成MP3;同时出差时会在与客户现场交流时使用手机录音功能。
每天大概通话录音约半小时,出差时全天与客户谈话差不多要2到3个小时。
以上录音文件我都会在晚上统一同步到电脑上,所以主要的处理平台是电脑。
以前使用WPS会员的那个录音转文字,基本够用,但近两月出差太多了,导致不太够用了,所以想找个免费或低价的转文字、区分说话人的方案。
回复

使用道具 举报

     
 楼主| 发表于 2025-3-18 22:05 | 显示全部楼层
宏. 发表于 2025-3-18 21:14
录音钥匙扣录音胸牌之类的东西多的是,讯飞你有账号的时候随便用什么东西录音再上传就是了,但其实这种微 ...

我目前就是这样用的,但这样的问题就是没有一个廉价方案来整理成文字,时间长了忘记就麻烦。
回复

使用道具 举报

     
发表于 2025-3-19 01:26 | 显示全部楼层
这不就whisper吗,最大的large V2/V3模型也就3个多G大小,只要不是烂到离谱的机器都能跑得起来,自己部署不来网上有打包好的傻瓜式软件,发言人识别,AI总结和翻译(当然需要API)都是可以实现的,断句的话随缘,只能说80%的情况下是好使的,可以手动设置每句最大长度一定程度缓解AI没断句然后一段话特别特别长的情况。我觉得现阶段应该也不存在完全保证能断好句的AI转写模型。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-4-20 16:53 , Processed in 0.190819 second(s), 14 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表