求一个电脑上能方便听录音文件写讲话稿的软件

GMJ 发表于 2025-11-6 17:12

涉密不能上网，所以没办法用各种需要联网的录音转文字软件，只能人力硬怼

现在是potplay听一点录音，在word里打一段字，

一个是要老打←键（已经设为播放器全局快捷键）回放重听，很麻烦不说，键盘还老打架，
另一个第一次快打打完的稿子也没办法对上录音时间，回头校对重打对时间要找很久

gnihton314 发表于 2025-11-6 17:34

whisper,不过没gpu的话就得用小模型

紧那罗 发表于 2025-11-6 18:07

录音都行 OBS?
模型看你电脑最近几年的电脑跑whisper应该问题都不大
推荐优化过的whisperX

额你需要实时吗?

ysubm 发表于 2025-11-6 18:59

你这不是有potplayer么，右键 - 字幕 - 生成有声字幕。下载模型需要联网，生成字幕过程不需要联网。largev2就行，v3提升很小。

—— 来自鹅球 v3.5.99-alpha

rougecoelacanth 发表于 2025-11-6 20:44

真田源次郎信繁 发表于 2025-11-6 20:55

中文ASR用小模型精度都太低，当然确实也能减小录入的工作量
想准确的话用Qwen Audio或者Whisper-large，小模型的话就Funasr

Augusty 发表于 2025-11-6 23:36

github上的项目：https://github.com/HaujetZhao/CapsWriter-Offline，可以离线使用

逆城的风 发表于 2025-11-7 00:13

capswriter+1。但你怎么把它搞进去呢刻盘吗

—— 来自鹅球 v3.5.99

GMJ 发表于 2025-11-7 09:52

紧那罗发表于 2025-11-6 18:07
录音都行 OBS?
模型看你电脑最近几年的电脑跑whisper应该问题都不大
推荐优化过的whisperX

不用实时，但单位的电脑是只有核显的

涉密文件都不能上网，也不用想着什么带回家用自己游戏主机怼模型的事情了

GMJ 发表于 2025-11-7 09:52

ysubm 发表于 2025-11-6 18:59
你这不是有potplayer么，右键 - 字幕 - 生成有声字幕。下载模型需要联网，生成字幕过程不需要联网。largev2 ...

可导出么？

紧那罗 发表于 2025-11-7 10:36

GMJ 发表于 2025-11-7 09:52
不用实时，但单位的电脑是只有核显的

涉密文件都不能上网，也不用想着什么带回家用自己游戏主机怼模型的 ...

你在自己电脑上把模型环境配好, 拷进去就行了.
ASR对算力的要求其实没那么高你如果对效率要求不高用cpu跑也是可以的

Su7 发表于 2025-11-7 10:39

电脑开外放，手机打开飞书妙记

GMJ 发表于 2025-11-7 14:44

Su7 发表于 2025-11-7 10:39
电脑开外放，手机打开飞书妙记

没用，试过了，本来就是大会堂的演讲录音失真很多，再我喇叭出来重收录失真更多。根本识别不了

直接把原录音文件导入讯飞的机器，又不让导入，机器只能文件复制到电脑，反向不能写入。

Su7 发表于 2025-11-7 15:32

GMJ 发表于 2025-11-7 14:44
没用，试过了，本来就是大会堂的演讲录音失真很多，再我喇叭出来重收录失真更多。根本识别不了

直接把原 ...

上对录？

GMJ 发表于 2025-11-10 08:51

本帖最后由 GMJ 于 2025-11-10 08:56 编辑

Su7 发表于 2025-11-7 15:32
上对录？
讯飞那个设备是没有3.5mm耳机口的。。只有一个usb-typc的充电+单向导出数据接口

我觉得应该不会流出这么简单就能破解的bug在，毕竟你这样相当于1000左右买了个可永久+无限制+离线语音转文字的设备了，人家在线的收费语音转文字就没法卖了。

FFFreddie 发表于 2025-11-10 09:09

电脑开个外放，然后手机用腾讯会议

—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99

GMJ 发表于 2025-11-10 09:12

FFFreddie 发表于 2025-11-10 09:09
电脑开个外放，然后手机用腾讯会议

—— 来自 Sony XQ-EC72, Android 16, 鹅球 v3.5.99 ...

试过了，前面有回复过，2次损失后转告错误离谱到的不可用，不如我无稿直接听码字

刘佐发表于 2025-11-10 23:39

录音文件反复播放+讯飞离线录音转写喽

—— 来自 S1Fun

GMJ 发表于 2025-11-11 08:59

我记得以前有这么个专门用来听录音转文字的软件，上面菜单栏就是播放的时间轴，下面就是简易的word一样的界面，
他会自己先转一遍录音生成文字，当然错误很多，所以需要你人工修正，但好处是在他在转录的时候每个文字段落甚至每个句号，都对应上面录音时间轴的一段，也就是说你修改的时候点击这句话，他就会播放对应的那一小段录音。不用再去操作录音软件拖时间条。

都改完了可以保存为word。

不知道有没有人知道叫啥

紧那罗 发表于 2025-11-11 09:05

本帖最后由紧那罗于 2025-11-11 09:07 编辑

想了下，我觉得你的需求应该是类似字幕编辑的需求。 subtitle edit之类的字幕编辑工具试试？ whisper可以输出srt格式的文件，可以先用ai粗翻一遍生成时间轴，然后自己精校

比如这个支持离线ai模型

https://github.com/WEIFENG2333/VideoCaptioner

论坛助手,iPhone

GMJ 发表于 2025-11-11 09:09

本帖最后由 GMJ 于 2025-11-11 09:12 编辑

紧那罗发表于 2025-11-11 09:05
想了下，我觉得你的需求应该是类似字幕编辑的需求。 subtitle edit之类的字幕编辑工具试试？ whisper可以输 ...
这个路子倒是没想过，确实和做视频字幕有异曲同工之妙，

如果可以自定义界面，我把视频预览等模块都关掉，精简一下UI，只保留音轨和字幕模块，效率还能再提高

Saikou 发表于 2025-11-11 09:13

buzz就行，whisper先粗生成，然后有时间轴可以边听边改

echoIII 发表于 2025-11-11 10:48

whisper需要N卡的，whisper本身对中文的效果就一般，small之类的小模型效果更差，要稍好点就得上large，用CPU就会慢到受不了。建议用sense-voice，模型小，中文效果据说还略胜whisper large，至少也是同一水平。CPU速度也挺快。也有很多傻瓜项目支持sense-voice，比如nosub。

那牛喝多 发表于 2025-11-12 09:58

capswriter拖文件进去可以直接生成字幕文件，你要修改对照着录音修改文件就行了，自己添加说话人

松下仓鼠 发表于 2025-11-12 10:11

下载 whisper 的离线模型，放到 potplayer 的安装文件夹，开启实时生成字幕，播放就会自动生成了，编辑时可以用字幕浏览器校对。
这个是即时可用的方案，一般是吃饭前点开播放，吃完回来就有字幕了

SimonOpera 发表于 2025-11-12 11:48

aegisub，开频谱，相当于手动打轴听写。不过要是我肯定先模型过一遍生成时间轴和基本文本

—— 来自 vivo V2405A, Android 15, 鹅球 v3.5.99

PCH 发表于 2025-12-6 22:11

本帖最后由 PCH 于 2025-12-6 23:02 编辑

GMJ 发表于 2025-11-11 09:09
这个路子倒是没想过，确实和做视频字幕有异曲同工之妙，

如果可以自定义界面，我把视频预览等模块都关掉 ...
potplayer可以。同时打开音频和SRT字幕文件，"Alt+E"查看字幕浏览器可以编辑（右上角设置可以把字调大）。习惯平行放到时间轴下面，都拉到最宽。或者直接在新的word文档里编辑，语音识别字幕仅作参考。前提是你能把软件（我用的也是楼上提到的Buzz）和模型（一个G的中型whisper对于会议录音非常够用了）导到内网，1440F这种CPU基本上也能1:1时效转录（一小时计算转录一小时音频）。当然，出于涉密材料安全考虑，强烈建议上述操作经过boss许可（都是血和泪的教训），要是能以什么人工智能赋能提升功效解放人力之名，搞个科技建设项目，拉来技术部门帮你搭建甚至买个GPU，那就最好了。毫无技术难点还能帮技术部门立个门面项目。
觉得拉音轨很烦的话，potplayer可以自定义播放暂停、前进/后退、倍速调整的快捷键（设置藏得比较深，可以百度），可以用数字小键盘，或者P键右边三个键避免冲突。这样码字可以全键盘操作，不太要动鼠标，省心很多。你说办公内网，这个不涉及文件进出，相对来说操作最方便。

zaku303 发表于 2025-12-6 23:46

我是整的讯飞语记，转录也可以，十个人在那瞎讨论，随时插花也能识别的可以。不过估计你得遵守保密原则，用不了。

—— 來自 Xiaomi 23113RKC6C, Android 16, 鵝球 v3.5.99

Robert_Weide 发表于 2025-12-7 00:36

potpotplayer居然这么好用，学到了

论坛助手,iPhone

酱豆腐 发表于 2025-12-8 13:37

其实有本地部署的转语音项目，你可以去git搜下，有一张1060的显卡就可以跑。

页: [1]

Stage1st's Archiver

求一个电脑上能方便听录音文件写讲话稿的软件