無始無終 发表于 2026-3-26 08:36
那也不贴切,图片、音频、视频、结构化数据等在大模型里都会转成token,这些都是词吗?
—— 来自 Haoqi ...
广义的词嘛。本质上计算机里存储的都是一串数字, 然后这串数字会被切分成一段段小数字, 然后进行编码,再送进下一道工序。这就是tokenization, 词元化。所以文章和图像和视频在计算机看来都是一串数字, 都要进行词元化再进入下一道工序。所以你说令牌其实也没差, 但令牌这个概念太孤单了, 不会再向上组织更高一层的结构了。但是词语天生就是要向上组织成更高一层结构的。所以用词元其实是很合适的我认为。
雨昼斯基 发表于 2026-3-25 23:41
谷歌研究员在注意力机制得论文中使用Transformer(全称为Generative Pre-trained Transformer)本就有多 ...
不行就叫“串子”好了
- 读过CS, ......我便考你一考。token,有几种译法?
- 我想,肥宅一样的人,也配考我么?便回过头去,不再理会。
- 孔乙己想新建一个readme来做解释,见我毫不热心,便又叹一口气,显出看不上闹钟的样子。
处男鉴黄师 发表于 2026-3-25 21:32
顾头不顾腚,以前信息安全领域的令牌要怎么翻译
请选择你的IP定义:
1、网络地址
2、知识产权
3、内容品牌
4、工程防护等级
屎山英语爱玩sb字母缩写你也学吗?英语就是太累赘才不得不搞字母缩写,导致大量歧义,中文可没这破毛病,非学英文用字母缩写就像正常人学瘸子走路
处男鉴黄师 发表于 2026-3-26 08:35
有道理,符和token一样既能表示语言基础单元(字符,符号)也能表示令牌(兵符,虎符)。但现代汉语不流 ...
符力好像有点怪怪的,像是和物理挂钩了。
总感觉计算机这块的翻译,总是在造黑话。往好了想就是因为计算机是对世界的模拟,这是为了剥离开模拟和现实的关系。往坏了想就是制造认知壁垒。虽然大概率就是编译原理那就这么翻译的,叫习惯了。
词元这翻译很不错
Andariel 发表于 2026-3-26 09:10
lora和prompt怎么翻译
罗拉,普罗姆普特
猫屎盆子 发表于 2026-3-26 09:13
他那说法就是为了最后一句“符力机”包的饺子
但凡说个词符都还能接个话讨论
Andariel 发表于 2026-3-26 09:10
lora和prompt怎么翻译
后者不是已经翻译成提示词了吗
ly4236 发表于 2026-3-26 00:35
我还是认为翻译成单字“符”就好,意思基本一致。计量单位用单字也挺好。
真心感觉计算机这块的翻译真是一 ...
计算机已经有字符了,会混淆
泥潭一群恋词癖在这纠结翻译问题。
我觉得词元这个翻译没啥问题,而且 Turing 很多新翻译的书已经在用词元表示 token 了。
ai的token就是借用的编译原理token啊,编译原理里token就是词元,ai里token叫词元很正常吧
—— 来自 鹅球 v3.5.99
ayanamilin 发表于 2026-3-26 09:35
泥潭一群恋词癖在这纠结翻译问题。
我觉得词元这个翻译没啥问题,而且 Turing 很多新翻译的书已经在用词元 ...
根子在15楼说英语不严谨 有人应激了
本来就是屁大的事儿
—— 来自 鹅球 v3.5.99
璇瑢子R 发表于 2026-3-25 21:47
虽然但是,token并没有一词多义
都是标是人与人之间约定了某种含义的符号。
最早是两河流域用来在泥土上” ...
互联**有的振振有词的胡说八道,牌佬AI出现几十年前就在用token这词了,跟其他场合是截然不同的含义
璇瑢子R 发表于 2026-3-25 21:47
虽然但是,token并没有一词多义
都是标是人与人之间约定了某种含义的符号。
最早是两河流域用来在泥土上” ...
还是多意了啊
不过怎么翻译看个人需求吧,能接受一个词的意思要结合上下文才能理解就没问题,不能接受或者觉得分开方便就分开好。中文里这样的字词也大把
跟单位里的工程师们聊了一下这个新闻,全员对想出这个概念的人佩服得五体投地。一鱼多吃,环环相扣,解决了无数个国内外难题。真形成生态圈的话,又是一个国家级的文明奇观。
现代LM里的token和编译原理里的token还不太一样,不过不影响理解就行了
致远星总书记 发表于 2026-3-25 21:18
环珠三角有什么优势搞算力吗?
既没冷源散热,又没有太阳能优势,风电也不稳定,大概就只有核能? ...
要散热扔漠河,
要安全扔大西南老三线遗产,
扔珠三角,呵呵哒……
沿用词元这个译名很好啊
这还有独醒哥高人一等的表演也太难崩了
— from Xiaomi 23127PN0CC, Android 16, S1 Next Goose v3.5.99
词元翻译的很好啊,我这个小白也大致明白了,至于更深入的,你们说的这些谁懂啊 Re:Source
爱撕衣魔刃 发表于 2026-3-26 12:48
要散热扔漠河,
要安全扔大西南老三线遗产,
环珠三角和珠三角是不一样的
环北京和北京那能一样吗
洛拉斯 发表于 2026-3-26 08:57
和d老师讨论了下,算力币最大问题就是贬值问题,不能直接对应算力而应该对应综合算力成本本质上还是锚定在 ...
我的理解是锚定到了当前生产力上,可以设定一个单位电力能产生的标准词元,这样不同大模型产生的词元按照效率、受众接受程度按照一个汇率跟标准词元进行兑换。
这样也解决了两大货币难题,一个是古代的金属货币被大量储藏导致的通缩问题,一个是现代信用货币的跟生产力脱节问题。
—— 来自 HUAWEI ALN-AL80, Android 12, 鹅球 v3.5.99-alpha
和单位it哥聊了下,发现it哥把这个东西叫向量?
词元挺好的,总不能用拼音,不然还想叫啥
wlhlz 发表于 2026-3-26 07:00
变形金刚
好吧差个s
没有差,本意就是取的变形金刚
我这种技术下游行业,很早之前就在写大模型相关的文档的时候把token翻译成词元了,transformer翻译成编码器/层
ayanamilin 发表于 2026-3-26 09:35
泥潭一群恋词癖在这纠结翻译问题。
我觉得词元这个翻译没啥问题,而且 Turing 很多新翻译的书已经在用词元 ...
21楼那个瞎子可是说没人用呢
猫屎盆子 发表于 2026-3-26 09:13
他那说法就是为了最后一句“符力机”包的饺子
艹,完全没往这块想,沉浸在怎么命名的漩涡里了。
本帖最后由 小修 于 2026-3-27 09:46 编辑
我觉得词有点不大好,主要是偏向文学语言方面了。但是元是好的。
比方说“词根、词缀、词条”,乍一看你就会觉得“词元”是它们一家人。结果呢是人工智能ai的单位计量。
目前token我更倾向是使用人工智能的度量单位,所以不体现人工智能(ai)不大好。
而且我也更希望体现其货币感。
智元、智角、智分。就有那意思了。
最近看一些专业书就发觉国内为了将外国新创造的词与旧词保持一致整了超级多又长又臭的长词语,咱门就不能他们创造我们也创造整一些简练的中文名么
本帖最后由 御坂MKII 于 2026-3-27 00:19 编辑
小修 发表于 2026-3-26 21:42
我觉得词有点不大好,主要是偏向文学方面了。但是元是好的。
目前token我更倾向是使用人工智能的度量单位 ...
因为 token 紧接着的还有 tokenize/tokenizer,后面已经有现成的很明了的翻译了:分词、分词器。
所以 token 叫词元是相当合适的。
当然 tokenizer 的翻译也是从搜索和编译原理那边沿用下来了,改倒是也可以,不过肯定是一串都要适配的
还可以有个题外话,谷歌某个数据库的用户文档里讲搜索的时候 token 的机翻就是令牌,也是很变态了 你在搜索之前要对文本进行令牌化!
Andariel 发表于 2026-3-26 09:10
lora和prompt怎么翻译
普通美国人更不懂 Low-Rank Adaptation 是啥,所以我觉得 lora 给个普通中国人不懂的正常的科技翻译也没问题
至于 prompt,老外也是用的提示(词)这个原义,老早的时候 llm 中文水平还差点儿的时候说是炼金咒语我觉得也没啥问题。时至今日自然随便了,翻译成啥其实也无所谓了
本帖最后由 zxdrtyhn 于 2026-3-27 00:30 编辑
在23年的时候,当时chatgpt的官方后台统计中,一个token就是对应一个英语单词,词元已经很不错了
Kynareth 发表于 2026-3-26 09:38
对AI来说都是词啊,你大脑处理的所有信息最后不都是神经元电信号?
对AI而言都是token而不是都是词,为什么token=词?你后面举的例子我甚至都看不懂和前面的有什么逻辑关系,因为大脑处理的都是电信号,所以视觉、听觉信息都是词?那你的意思是电=词?无法理解
我更赞成其他楼里“意元”、“智元”这种说法
—— 来自 Haoqing M8, Android 14, 鹅球 v3.5.99
字词句咋不叫字元 哈哈
歪个楼
我发现AI很容易堆砌我问这个prompt怎么写更好,会写完之后再提几点建议说会更好
我反馈一些问题之后,他会抓着这个东西重复换几种说法再来一次。这就是所谓的屎山代码吗