介绍一下最近在办公室使用的语音输入方案

流缨发表于 2026-1-19 15:54

本帖最后由流缨于 2026-1-19 16:10 编辑

使用语音输入一直以来在办公环境有两个痛点
一个是声音过大，会影响他人，在很多时候出于隐私目的，你也不想让自己说的话被别人听到
二就是输入的效果不尽如人意。
但是现在已经是2026年了，解决这两个问题都有了相当简单的方案。

问题1：我的解决方案是买了DJI Mic mini一拖一的手机端发射器和接收器。但由于这个接收器是 Type-C 接口，直接支持插到win11 PC就可以达到增加一个麦克风的效果。

接下来只需要将发射器拿到嘴边，使用耳语级别的声音，即可进行语音输出。

问题二的解决方案是使用 Typeless 或者是闪电说：

1. 前者收费订阅
2. 后者免费，可以直接输出也可以再加一道增强，调用ds等 API 来实现 AI 调整输出内容

后者加上AI的处理速度要慢一些，因为它不是直接对音频进行处理，而是对语音转文字之后的效果进行处理。但是在今天刚好又更新了一次调用的方式，有所改变，速度变快了不少。

使用语音输入主要目的是为了 vibe coding和搞文档和日记，打字实在是太拖慢节奏了。当我进行 vibe coding 的时候，肯定会有很多英文单词，这个 Typeless（前者）做得不错，识别都比较正确。后者相对差一些。但他们都支持自定义字典，我基本上会把一些特定结构或者名词的预先输入

同时两者都还支持小语种输入，比如：
天气がいいから散歩しましょ
Bonjour !
안녕하세요

总之就是不差钱的话，可以直接选择 Typeless，效果要好不少。而且 Typeless 可以根据你之前输入的上下文来进行 AI 修正，这一点是“闪电说”还做不到的。比如说，有哪句话你刚才输入的识别不是很正确，你可以把光标放到那个位置，或者是编辑那句话重新说一遍。

这两个方案都支持历史查询，你输入过的内容在软件内都有所保留，不用担心编辑后丢失的问题。功能操作上，大同小异，都支持快捷键触发，或者是按键后自由开麦

移动端的话，可能现在就要多一个豆包输入法了。我感觉 Typeless 甚至还比不过豆包的识别准确率。但移动端大多是生活对话，这方面豆包肯定是有所强化的。

本帖全程在我使用 DJI Mic mini 的情况下，用 Typeless 和闪电说混合输入，并配合20个字以内的手动修改。

流缨发表于 2026-1-19 15:55

本帖最后由流缨于 2026-1-19 16:06 编辑

口语化的结果就是发完帖子再看感觉非常难受，不过论坛吹水无所谓了。
同事表示经常看见我一个人在工位上窃窃私语，虽然听不到我在说什么，但总有一些奇怪的符号冒出来。
其实对于老登还是挺难受的，因为键盘打字的同时你就能梳理想法，操作和思路是同步的，但是语音输入就容易打断思路，语音输入多了有一种在高速默念咒文的感觉，开始还是非常不适应的。毕竟作为死宅，日常说话本来就少，还要让嘴巴跟上脑子的思路，确实需要一些适应时间。

不过总体来说，如果你需要写文档，现在的语音输入完全可以胜任。到最后把语音整理成内容的文档，耗时肯定是比你自己打字要少很多的。但是我的文章相对来说还是以中文为主，只有极少数英文单词，还没有试过大量混杂的情况

现在写日志也非常简单，直接流水账式地把每天做的事情全部都说出来，然后复制粘贴给 AI 整理成固定的输出格式文档就完事了，不需要再费心巴拉地打字。

Nanachi 发表于 2026-1-19 16:14

要不咱就用手机上的豆包语音输入法，再通过微信文件同步助手发一段话到电脑吧…

论坛助手,iPhone

千千千千鸟 发表于 2026-1-19 16:15

语言输入能治结巴吗，想试试

流缨发表于 2026-1-19 16:23

Nanachi 发表于 2026-1-19 16:14
要不咱就用手机上的豆包语音输入法，再通过微信文件同步助手发一段话到电脑吧…

论坛助手,iPhone ...

我买 mic mini 的主要目的就是要节省这个步骤。
生活、对话场景下，豆包比 Typeless 要好不少，移动端是我主力输入。但是 Typeless 对于AI的那些玩意儿是有优化的，豆包暂时还搞不来

HSJ1992 发表于 2026-1-20 23:40

我用的lazytyper.

lawsherman 发表于 2026-1-21 00:13

lazytype我经常按了没反应，只看见图标在转
然后闪电说识别效果很差

张元英 发表于 2026-1-21 00:45

Typeless底层用的是什么模型？闪电说用的好像也是开源模型。

页: [1]

Stage1st's Archiver

介绍一下最近在办公室使用的语音输入方案