GMJ 发表于 2025-11-6 17:12

求一个电脑上能方便听录音文件写讲话稿的软件

涉密不能上网,所以没办法用各种需要联网的录音转文字软件,只能人力硬怼


现在是potplay听一点录音,在word里打一段字,

一个是要老打←键(已经设为播放器全局快捷键)回放重听,很麻烦不说,键盘还老打架,
另一个第一次快打打完的稿子也没办法对上录音时间,回头校对重打对时间要找很久

gnihton314 发表于 2025-11-6 17:34

whisper,不过没gpu的话就得用小模型

紧那罗 发表于 2025-11-6 18:07

录音都行 OBS?
模型看你电脑 最近几年的电脑跑whisper应该问题都不大
推荐优化过的whisperX

额 你需要实时吗?

ysubm 发表于 2025-11-6 18:59

你这不是有potplayer么,右键 - 字幕 - 生成有声字幕。下载模型需要联网,生成字幕过程不需要联网。largev2就行,v3提升很小。

—— 来自 鹅球 v3.5.99-alpha

rougecoelacanth 发表于 2025-11-6 20:44

memo.ac
试试看

真田源次郎信繁 发表于 2025-11-6 20:55

中文ASR用小模型精度都太低,当然确实也能减小录入的工作量
想准确的话用Qwen Audio或者Whisper-large,小模型的话就Funasr

Augusty 发表于 2025-11-6 23:36

github上的项目:https://github.com/HaujetZhao/CapsWriter-Offline,可以离线使用

逆城的风 发表于 2025-11-7 00:13

capswriter+1。但你怎么把它搞进去呢刻盘吗

—— 来自 鹅球 v3.5.99

GMJ 发表于 2025-11-7 09:52

紧那罗 发表于 2025-11-6 18:07
录音都行 OBS?
模型看你电脑 最近几年的电脑跑whisper应该问题都不大
推荐优化过的whisperX


不用实时,但单位的电脑是只有核显的

涉密文件都不能上网,也不用想着什么带回家用自己游戏主机怼模型的事情了

GMJ 发表于 2025-11-7 09:52

ysubm 发表于 2025-11-6 18:59
你这不是有potplayer么,右键 - 字幕 - 生成有声字幕。下载模型需要联网,生成字幕过程不需要联网。largev2 ...

可导出么?

紧那罗 发表于 2025-11-7 10:36

GMJ 发表于 2025-11-7 09:52
不用实时,但单位的电脑是只有核显的

涉密文件都不能上网,也不用想着什么带回家用自己游戏主机怼模型的 ...

你在自己电脑上把模型环境配好, 拷进去就行了.
ASR对算力的要求其实没那么高 你如果对效率要求不高 用cpu跑也是可以的

Su7 发表于 2025-11-7 10:39

GMJ 发表于 2025-11-7 14:44

Su7 发表于 2025-11-7 10:39
电脑开外放,手机打开飞书妙记

没用,试过了,本来就是大会堂的演讲录音失真很多,再我喇叭出来重收录失真更多。根本识别不了

直接把原录音文件导入讯飞的机器,又不让导入,机器只能文件复制到电脑,反向不能写入。

Su7 发表于 2025-11-7 15:32

GMJ 发表于 2025-11-10 08:51

本帖最后由 GMJ 于 2025-11-10 08:56 编辑

Su7 发表于 2025-11-7 15:32
上对录?
讯飞那个设备是没有3.5mm耳机口的。。只有一个usb-typc的充电+单向导出数据接口

我觉得应该不会流出这么简单就能破解的bug在,毕竟你这样相当于1000左右买了个可永久+无限制+离线语音转文字的设备了,人家在线的收费语音转文字就没法卖了。

FFFreddie 发表于 2025-11-10 09:09

电脑开个外放,然后手机用腾讯会议

—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99

GMJ 发表于 2025-11-10 09:12

FFFreddie 发表于 2025-11-10 09:09
电脑开个外放,然后手机用腾讯会议

—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99 ...

试过了,前面有回复过,2次损失后转告错误离谱到的不可用,不如我无稿直接听码字

刘佐 发表于 2025-11-10 23:39

录音文件反复播放+讯飞离线录音转写喽


—— 来自 S1Fun

GMJ 发表于 2025-11-11 08:59

我记得以前有这么个专门用来听录音转文字的软件,上面菜单栏就是播放的时间轴,下面就是简易的word一样的界面,
他会自己先转一遍录音生成文字,当然错误很多,所以需要你人工修正,但好处是在他在转录的时候每个文字段落甚至每个句号,都对应上面录音时间轴的一段,也就是说你修改的时候点击这句话,他就会播放对应的那一小段录音。不用再去操作录音软件拖时间条。

都改完了可以保存为word。

不知道有没有人知道叫啥

紧那罗 发表于 2025-11-11 09:05

本帖最后由 紧那罗 于 2025-11-11 09:07 编辑

想了下,我觉得你的需求应该是类似字幕编辑的需求。 subtitle edit之类的字幕编辑工具试试? whisper可以输出srt格式的文件,可以先用ai粗翻一遍生成时间轴,然后自己精校


比如这个支持离线ai模型

https://github.com/WEIFENG2333/VideoCaptioner

论坛助手,iPhone

GMJ 发表于 2025-11-11 09:09

本帖最后由 GMJ 于 2025-11-11 09:12 编辑

紧那罗 发表于 2025-11-11 09:05
想了下,我觉得你的需求应该是类似字幕编辑的需求。 subtitle edit之类的字幕编辑工具试试? whisper可以输 ...
这个路子倒是没想过,确实和做视频字幕有异曲同工之妙,

如果可以自定义界面,我把视频预览等模块都关掉,精简一下UI,只保留音轨和字幕模块,效率还能再提高

Saikou 发表于 2025-11-11 09:13

buzz就行,whisper先粗生成,然后有时间轴可以边听边改

echoIII 发表于 2025-11-11 10:48

whisper需要N卡的,whisper本身对中文的效果就一般,small之类的小模型效果更差,要稍好点就得上large,用CPU就会慢到受不了。建议用sense-voice,模型小,中文效果据说还略胜whisper large,至少也是同一水平。CPU速度也挺快。也有很多傻瓜项目支持sense-voice,比如nosub。

那牛喝多 发表于 2025-11-12 09:58

capswriter拖文件进去可以直接生成字幕文件,你要修改对照着录音修改文件就行了,自己添加说话人

松下仓鼠 发表于 2025-11-12 10:11

下载 whisper 的离线模型,放到 potplayer 的安装文件夹,开启实时生成字幕,播放就会自动生成了,编辑时可以用字幕浏览器校对。
这个是即时可用的方案,一般是吃饭前点开播放,吃完回来就有字幕了

SimonOpera 发表于 2025-11-12 11:48

aegisub,开频谱,相当于手动打轴听写。不过要是我肯定先模型过一遍生成时间轴和基本文本

—— 来自 vivo V2405A, Android 15, 鹅球 v3.5.99

PCH 发表于 2025-12-6 22:11

本帖最后由 PCH 于 2025-12-6 23:02 编辑

GMJ 发表于 2025-11-11 09:09
这个路子倒是没想过,确实和做视频字幕有异曲同工之妙,

如果可以自定义界面,我把视频预览等模块都关掉 ...
potplayer可以。同时打开音频和SRT字幕文件,"Alt+E"查看字幕浏览器可以编辑(右上角设置可以把字调大)。习惯平行放到时间轴下面,都拉到最宽。或者直接在新的word文档里编辑,语音识别字幕仅作参考。前提是你能把软件(我用的也是楼上提到的Buzz)和模型(一个G的中型whisper对于会议录音非常够用了)导到内网,1440F这种CPU基本上也能1:1时效转录(一小时计算转录一小时音频)。当然,出于涉密材料安全考虑,强烈建议上述操作经过boss许可(都是血和泪的教训),要是能以什么人工智能赋能提升功效解放人力之名,搞个科技建设项目,拉来技术部门帮你搭建甚至买个GPU,那就最好了。毫无技术难点还能帮技术部门立个门面项目。
觉得拉音轨很烦的话,potplayer可以自定义播放暂停、前进/后退、倍速调整的快捷键(设置藏得比较深,可以百度),可以用数字小键盘,或者P键右边三个键避免冲突。这样码字可以全键盘操作,不太要动鼠标,省心很多。你说办公内网,这个不涉及文件进出,相对来说操作最方便。

zaku303 发表于 2025-12-6 23:46

我是整的讯飞语记,转录也可以,十个人在那瞎讨论,随时插花也能识别的可以。不过估计你得遵守保密原则,用不了。

—— 來自 Xiaomi 23113RKC6C, Android 16, 鵝球 v3.5.99

Robert_Weide 发表于 2025-12-7 00:36

potpotplayer居然这么好用,学到了

论坛助手,iPhone

酱豆腐 发表于 2025-12-8 13:37

其实有本地部署的转语音项目,你可以去git搜下,有一张1060的显卡就可以跑。
页: [1]
查看完整版本: 求一个电脑上能方便听录音文件写讲话稿的软件