介绍一下最近在办公室使用的语音输入方案
本帖最后由 流缨 于 2026-1-19 16:10 编辑使用语音输入一直以来在办公环境有两个痛点
一个是声音过大,会影响他人,在很多时候出于隐私目的,你也不想让自己说的话被别人听到
二就是输入的效果不尽如人意。
但是现在已经是2026年了,解决这两个问题都有了相当简单的方案。
问题1:我的解决方案是买了DJI Mic mini一拖一的手机端发射器和接收器。但由于这个接收器是 Type-C 接口,直接支持插到win11 PC就可以达到增加一个麦克风的效果。
接下来只需要将发射器拿到嘴边,使用耳语级别的声音,即可进行语音输出。
问题二的解决方案是使用 Typeless 或者是闪电说:
1. 前者收费订阅
2. 后者免费,可以直接输出也可以再加一道增强,调用ds等 API 来实现 AI 调整输出内容
后者加上AI的处理速度要慢一些,因为它不是直接对音频进行处理,而是对语音转文字之后的效果进行处理。但是在今天刚好又更新了一次调用的方式,有所改变,速度变快了不少。
使用语音输入主要目的是为了 vibe coding和搞文档和日记,打字实在是太拖慢节奏了。当我进行 vibe coding 的时候,肯定会有很多英文单词,这个 Typeless(前者)做得不错,识别都比较正确。后者相对差一些。但他们都支持自定义字典,我基本上会把一些特定结构或者名词的预先输入
同时两者都还支持小语种输入,比如:
天气がいいから散歩しましょ
Bonjour !
안녕하세요
总之就是不差钱的话,可以直接选择 Typeless,效果要好不少。而且 Typeless 可以根据你之前输入的上下文来进行 AI 修正,这一点是“闪电说”还做不到的。比如说,有哪句话你刚才输入的识别不是很正确,你可以把光标放到那个位置,或者是编辑那句话重新说一遍。
这两个方案都支持历史查询,你输入过的内容在软件内都有所保留,不用担心编辑后丢失的问题。功能操作上,大同小异,都支持快捷键触发,或者是按键后自由开麦
移动端的话,可能现在就要多一个豆包输入法了。我感觉 Typeless 甚至还比不过豆包的识别准确率。但移动端大多是生活对话,这方面豆包肯定是有所强化的。
本帖全程在我使用 DJI Mic mini 的情况下,用 Typeless 和闪电说混合输入,并配合20个字以内的手动修改。
本帖最后由 流缨 于 2026-1-19 16:06 编辑
口语化的结果就是发完帖子再看感觉非常难受,不过论坛吹水无所谓了。
同事表示经常看见我一个人在工位上窃窃私语,虽然听不到我在说什么,但总有一些奇怪的符号冒出来。
其实对于老登还是挺难受的,因为键盘打字的同时你就能梳理想法,操作和思路是同步的,但是语音输入就容易打断思路,语音输入多了有一种在高速默念咒文的感觉,开始还是非常不适应的。毕竟作为死宅,日常说话本来就少,还要让嘴巴跟上脑子的思路,确实需要一些适应时间。
不过总体来说,如果你需要写文档,现在的语音输入完全可以胜任。到最后把语音整理成内容的文档,耗时肯定是比你自己打字要少很多的。但是我的文章相对来说还是以中文为主,只有极少数英文单词,还没有试过大量混杂的情况
现在写日志也非常简单,直接流水账式地把每天做的事情全部都说出来,然后复制粘贴给 AI 整理成固定的输出格式文档就完事了,不需要再费心巴拉地打字。
要不咱就用手机上的豆包语音输入法,再通过微信文件同步助手发一段话到电脑吧…
论坛助手,iPhone 语言输入能治结巴吗,想试试 Nanachi 发表于 2026-1-19 16:14
要不咱就用手机上的豆包语音输入法,再通过微信文件同步助手发一段话到电脑吧…
论坛助手,iPhone ...
我买 mic mini 的主要目的就是要节省这个步骤。
生活、对话场景下,豆包比 Typeless 要好不少,移动端是我主力输入。但是 Typeless 对于AI的那些玩意儿是有优化的,豆包暂时还搞不来 我用的lazytyper. lazytype我经常按了没反应,只看见图标在转
然后闪电说识别效果很差 Typeless底层用的是什么模型?闪电说用的好像也是开源模型。
页:
[1]