求一个电脑上能方便听录音文件写讲话稿的软件
涉密不能上网,所以没办法用各种需要联网的录音转文字软件,只能人力硬怼现在是potplay听一点录音,在word里打一段字,
一个是要老打←键(已经设为播放器全局快捷键)回放重听,很麻烦不说,键盘还老打架,
另一个第一次快打打完的稿子也没办法对上录音时间,回头校对重打对时间要找很久
whisper,不过没gpu的话就得用小模型 录音都行 OBS?
模型看你电脑 最近几年的电脑跑whisper应该问题都不大
推荐优化过的whisperX
额 你需要实时吗?
你这不是有potplayer么,右键 - 字幕 - 生成有声字幕。下载模型需要联网,生成字幕过程不需要联网。largev2就行,v3提升很小。
—— 来自 鹅球 v3.5.99-alpha memo.ac
试试看 中文ASR用小模型精度都太低,当然确实也能减小录入的工作量
想准确的话用Qwen Audio或者Whisper-large,小模型的话就Funasr github上的项目:https://github.com/HaujetZhao/CapsWriter-Offline,可以离线使用 capswriter+1。但你怎么把它搞进去呢刻盘吗
—— 来自 鹅球 v3.5.99 紧那罗 发表于 2025-11-6 18:07
录音都行 OBS?
模型看你电脑 最近几年的电脑跑whisper应该问题都不大
推荐优化过的whisperX
不用实时,但单位的电脑是只有核显的
涉密文件都不能上网,也不用想着什么带回家用自己游戏主机怼模型的事情了 ysubm 发表于 2025-11-6 18:59
你这不是有potplayer么,右键 - 字幕 - 生成有声字幕。下载模型需要联网,生成字幕过程不需要联网。largev2 ...
可导出么?
GMJ 发表于 2025-11-7 09:52
不用实时,但单位的电脑是只有核显的
涉密文件都不能上网,也不用想着什么带回家用自己游戏主机怼模型的 ...
你在自己电脑上把模型环境配好, 拷进去就行了.
ASR对算力的要求其实没那么高 你如果对效率要求不高 用cpu跑也是可以的 Su7 发表于 2025-11-7 10:39
电脑开外放,手机打开飞书妙记
没用,试过了,本来就是大会堂的演讲录音失真很多,再我喇叭出来重收录失真更多。根本识别不了
直接把原录音文件导入讯飞的机器,又不让导入,机器只能文件复制到电脑,反向不能写入。 本帖最后由 GMJ 于 2025-11-10 08:56 编辑
Su7 发表于 2025-11-7 15:32
上对录?
讯飞那个设备是没有3.5mm耳机口的。。只有一个usb-typc的充电+单向导出数据接口
我觉得应该不会流出这么简单就能破解的bug在,毕竟你这样相当于1000左右买了个可永久+无限制+离线语音转文字的设备了,人家在线的收费语音转文字就没法卖了。
电脑开个外放,然后手机用腾讯会议
—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99 FFFreddie 发表于 2025-11-10 09:09
电脑开个外放,然后手机用腾讯会议
—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99 ...
试过了,前面有回复过,2次损失后转告错误离谱到的不可用,不如我无稿直接听码字 录音文件反复播放+讯飞离线录音转写喽
—— 来自 S1Fun 我记得以前有这么个专门用来听录音转文字的软件,上面菜单栏就是播放的时间轴,下面就是简易的word一样的界面,
他会自己先转一遍录音生成文字,当然错误很多,所以需要你人工修正,但好处是在他在转录的时候每个文字段落甚至每个句号,都对应上面录音时间轴的一段,也就是说你修改的时候点击这句话,他就会播放对应的那一小段录音。不用再去操作录音软件拖时间条。
都改完了可以保存为word。
不知道有没有人知道叫啥 本帖最后由 紧那罗 于 2025-11-11 09:07 编辑
想了下,我觉得你的需求应该是类似字幕编辑的需求。 subtitle edit之类的字幕编辑工具试试? whisper可以输出srt格式的文件,可以先用ai粗翻一遍生成时间轴,然后自己精校
比如这个支持离线ai模型
https://github.com/WEIFENG2333/VideoCaptioner
论坛助手,iPhone 本帖最后由 GMJ 于 2025-11-11 09:12 编辑
紧那罗 发表于 2025-11-11 09:05
想了下,我觉得你的需求应该是类似字幕编辑的需求。 subtitle edit之类的字幕编辑工具试试? whisper可以输 ...
这个路子倒是没想过,确实和做视频字幕有异曲同工之妙,
如果可以自定义界面,我把视频预览等模块都关掉,精简一下UI,只保留音轨和字幕模块,效率还能再提高
buzz就行,whisper先粗生成,然后有时间轴可以边听边改 whisper需要N卡的,whisper本身对中文的效果就一般,small之类的小模型效果更差,要稍好点就得上large,用CPU就会慢到受不了。建议用sense-voice,模型小,中文效果据说还略胜whisper large,至少也是同一水平。CPU速度也挺快。也有很多傻瓜项目支持sense-voice,比如nosub。 capswriter拖文件进去可以直接生成字幕文件,你要修改对照着录音修改文件就行了,自己添加说话人 下载 whisper 的离线模型,放到 potplayer 的安装文件夹,开启实时生成字幕,播放就会自动生成了,编辑时可以用字幕浏览器校对。
这个是即时可用的方案,一般是吃饭前点开播放,吃完回来就有字幕了 aegisub,开频谱,相当于手动打轴听写。不过要是我肯定先模型过一遍生成时间轴和基本文本
—— 来自 vivo V2405A, Android 15, 鹅球 v3.5.99 本帖最后由 PCH 于 2025-12-6 23:02 编辑
GMJ 发表于 2025-11-11 09:09
这个路子倒是没想过,确实和做视频字幕有异曲同工之妙,
如果可以自定义界面,我把视频预览等模块都关掉 ...
potplayer可以。同时打开音频和SRT字幕文件,"Alt+E"查看字幕浏览器可以编辑(右上角设置可以把字调大)。习惯平行放到时间轴下面,都拉到最宽。或者直接在新的word文档里编辑,语音识别字幕仅作参考。前提是你能把软件(我用的也是楼上提到的Buzz)和模型(一个G的中型whisper对于会议录音非常够用了)导到内网,1440F这种CPU基本上也能1:1时效转录(一小时计算转录一小时音频)。当然,出于涉密材料安全考虑,强烈建议上述操作经过boss许可(都是血和泪的教训),要是能以什么人工智能赋能提升功效解放人力之名,搞个科技建设项目,拉来技术部门帮你搭建甚至买个GPU,那就最好了。毫无技术难点还能帮技术部门立个门面项目。
觉得拉音轨很烦的话,potplayer可以自定义播放暂停、前进/后退、倍速调整的快捷键(设置藏得比较深,可以百度),可以用数字小键盘,或者P键右边三个键避免冲突。这样码字可以全键盘操作,不太要动鼠标,省心很多。你说办公内网,这个不涉及文件进出,相对来说操作最方便。 我是整的讯飞语记,转录也可以,十个人在那瞎讨论,随时插花也能识别的可以。不过估计你得遵守保密原则,用不了。
—— 來自 Xiaomi 23113RKC6C, Android 16, 鵝球 v3.5.99 potpotplayer居然这么好用,学到了
论坛助手,iPhone 其实有本地部署的转语音项目,你可以去git搜下,有一张1060的显卡就可以跑。
页:
[1]