2026年3月23日,全国科学技术名词审定委员会发布公告推荐“词元”试用,AI领域核心术语Token定下正式中文译名“词元”。
好的翻译的确利于技术的科普和传播。laser刚进入中国时,大陆最初音译为“来塞”,台湾地区则叫作“镭射”,此外还有其他译法,混乱的译法给科研交流、科普带来了极大困扰。钱学森反复斟酌,将laser统一译为“激光”。这一译法简洁精准,既体现了激光是电子受激发后产生的这一技术特征,也方便了公众认识。这个翻译比台湾“镭射”的译法更好,虽然镭射有音译的成分,但因镭字与放射性元素“镭”相关,在当时还引发了恐慌。
但问题是,laser是一个相对单一的概念,而Token的含义则很多。
Token是AI大模型处理的数据最小单元。早在大语言模型之前,AI有一个领域叫作“自然语言处理”,简称NLP。在NLP中,Token表达的就是词、语素、词位等各种语言符号的最小单元,翻译成“词元”是很合适的。
后来,transformer模型从nlp领域,向图像领域等更多模态延展。比如,将图像分割为16×16的小块(patches),每个patch就是一个“Token”。从nlp领域延伸过来,自然也就沿用了nlp领域的术语。不过,一般视觉模型的论文中会写成image token,别的模态也会加上相应的前缀。
随着多模态大模型的发展,Token不再局限于语言,而是变成了AI能处理一切离散符号的最小单元,图像、视频、声音等都可以拆解成token,再用token作为单位来计算算力耗费。
所以,“词元”从字面上理解,概念比token变窄了。有程序员吐槽:“token在AI里不只是处理文字,现在图像、视频、语音都会被‘token化’处理,token既可以是一个汉字、一个词根,也可以是一张图片的像素块、一段语音的片段。‘词元’里的‘词’字,直接把非文字模态排除在外,太片面了!”难道未来还要有“图元” “视频元” “音元” 吗?
这就会导致一个问题。
维特根斯坦认为,语言通过逻辑结构与世界形成映射关系。在我看来,这种映射关系是多元的、整体的。翻译必然丢掉其中一些映射关系。举一个汉语的例子,花这个字的意思,最基本的含义是植物的器官。这个本意衍生出烟花、校花这类意义。花从名词又衍生出形容词的含义,形容颜色、式样复杂。这个意思,又再次递进,用来形容磨损或破损——因为磨损后的形态、形状、图案是复杂的,比如,玻璃花了,鞋子磨花了。因为磨损的意思,花字又产生了一个动词意义:花费、花销、浪费。
动词意义的花费、花销;加上形容词的样式复杂;再加上花本身的名词意义,综合在一起,就是“花天酒地”这个成语中“花”的意思,表达一种铺张浪费、花样繁多、女性混合在一起的综合性、整体性意境。
这种整体性的含义,母语是中文的人,不难理解。但对学中文的外国人而言,他们想要理解“花朵”和“花钱”,为什么都是花字,是很难的——这就像中国人学英语那样。至于外国人要领会“花天酒地”这个成语中的“花”字的整体性含义,就得要很多年,浸淫中文语境,才能领悟。
同样的,如果把一张猫咪图片拆解成token,说成拆解成词元。这不仅仅是不符合日常认知,也不仅仅是会给科普带来困扰,更关键的是,缺失了整体性,会影响认知框架,会对技术思维方式,形成潜移默化的影响。今后无数的技术人员,在使用token这个词的时候,他们的思维会潜移默化地、更多地将token视为一个词。所以,当词元的含义更狭窄的时候,使用词元的人,对技术的思考也会相应变窄。
一个“言说”影响思维的例子是,转基因如果叫作生物育种,预制菜叫作塑料罐头,那么,引发舆论的可能,引发舆论的强度就会小得多。因为育种和罐头,都是“传统”之物。这就是“名词中自带的观点”。
自动控制领域的术语robust,在学术圈被统一翻译为“鲁棒”性。“鲁棒”在中文里没有任何语义联想,在公众传播层面,遭到一定的吐槽。有人调侃:“第一次看到‘鲁棒性’,我还以为是山东出产的棒球棍。”但这是一个专业名词,首先应该考虑的不是公众传播,公众自然会慢慢明白其意思。这类名字的翻译,更需要考虑的是技术传播。“鲁”“棒”字,很好地包含了robust的整体性意思,不妨碍技术思维,所以,在我看来,这是一个很好的翻译。
20世纪90年代,互联网进入中国时,Internet曾有“因特网”“信息网络”“互联网”等多种译法,然后权威统一定为“因特网”。不过,在后来的文字演变中,“互联网”胜出。其实,“因特网”这个翻译,没有考虑太多的语言在文化意义上的纯洁,采用了音译,在我看来,就是为了更好地保留其整体意义。
所以,token翻译为词元,是有所失的。凡事皆有得失,那么,“得”是什么呢?
有一种说法,统一译名,是语言权力博弈,是在争夺国际AI技术话语权。这种情况是存在的。典型的例子是对龙的翻译。中国龙和西方龙,是不一样的。中国龙是祥瑞神兽、象征皇权,西方龙是邪恶怪物,往往要被骑士斩杀。英语中把龙翻译为dragon,是找了一个英语语境中,最接近的形象。但西方传统观点在潜移默化中,就会产生对中国龙不好的印象,进而影响对中国文化、中国的印象。所以,中国主动澄清,推广龙的音译long,是一个典型的消除文化误会,争夺国际话语权的例子。
另一个例子是汉城。汉城因位于汉江之北,得名“汉阳”。14世纪末朝鲜王朝定都汉阳后,改名为“汉城”。英语根据韩语发音,直译为Hanseong”,然后,中文又根据拼写和发音,译为汉城。汉城带有浓厚的古代政治文化色彩,使人容易联想到韩国曾臣服于中国。“Seoul”一词在韩语中本意为“首都”,早在19世纪末已非正式用于国际交流。到了2005年,韩国政府正式宣布“Seoul”为唯一官方英文名称,并明确要求国际社会停止使用“Hanseong”,自然也就涉及到中文的“汉城”。怎么翻译,当然是一国自己的事,但尊重他国意愿,中国也采用了“首尔”这个译法。推动这一更名,体现了韩国强化文化主体性的意图。
问题是,前面两个例子,都是主动干涉其他语言翻译自身语言,但Token的英译汉,仅仅是一个翻译问题,不管中国人如何翻译,英语中始终叫“token”,毫无影响。就像你在自己家里,把猫叫作狗,狗叫作猫,这也丝毫影响不了其他人怎么叫,更谈不上所谓的争夺猫狗话语权。这就像Chip一词,不管是翻译为“芯片”“晶片”“集成电路”还是“水晶宝石”“沙之宝”,都是中国人关起门来的事,与中国大陆半导体行业在全球话语体系中的主体性,没有丝毫的关系。
实际上,英语对dragon的翻译,就是一个典型“非要用现存的词语去套外来概念,进而产生误导”的例子。对token的翻译,和西方对龙的翻译,是一模一样的。
所以,采用词元这个字面翻译,更多地保留了形式上文字的纯洁性,但并不能争取到所谓的话语权,而在语义上的丢失,则会产生深远的技术影响。
(本文仅代表作者本人观点,责编:闫曼 man.yan@ftchinese.com)