前两天跟一个在联合国做过翻译的朋友聊天，他说了个有意思的事。每次开会发资料，中文

前两天跟一个在联合国做过翻译的朋友聊天，他说了个有意思的事。每次开会发资料，中文版永远最薄。一开始他以为是印刷问题，后来发现不是。同样一份《联合国宪章》，中文版两万六千多字，英文版五万五千词起步。同一个意思，英文愣是多写了一倍的字。他说这话的时候表情特平淡，但我听完后背一凉——我们每天敲的汉字，原来这么“能装”？这事还真有科学依据。信息论那个叫香农的老爷子，当年算过一个东西叫“信息熵”。说白了就是测量每种文字一个符号能装多少信息。他算出来：英文字母大概4个比特，汉字能干到9.65比特。翻译成人话就是，你写一个汉字，塞进去的信息量顶两个半英文字母。所以中文文件薄一半，不是玄学，是数学。那汉字凭啥这么能装？我琢磨了一下，最核心的原因就一个：汉字是二维的。英文是线性排队，字母一个一个傻站着。汉字不一样，横竖两向铺开，笔画跟搭积木似的。一个“爨”字快三十画，但信息量顶得上一小段英文。更妙的是“旧词装新义”——英文冒出个激光就叫laser，你得硬记。汉字呢？激光俩字，激和光你本来就认识，组合一下新概念就出来了。牛津大学做过统计，英文每年要新增八千多个新词，过去一百年从二十万词涨到一百多万。中文呢？根本不用造新字。电脑、手机、云计算、人工智能——翻来覆去就那么三四千个常用字，组合一下啥都能表达。这就好比你有26个积木，对方有三千多个积木，但每个积木块还特别小。你说谁搭东西快？但有意思的来了。你以为汉字这么牛，AI肯定也喜欢吧？恰恰相反。大模型不直接读字，它先把文字切成一堆叫token的小块。英文里“the”“is”这种常见词，整个算一个token。中文呢？每个汉字几乎都要被切成一个token。我拿同一段技术文本试过，英文210个token，中文209个。对人类大脑高效得飞起的压缩包，在AI面前优势几乎归零。不过这事还没完。有工程师在训练中文模型时发现一个有意思的现象：虽然token数量差不多，但每个中文token里塞进去的语义更完整，模型学习效率反而更高。有人做测试也发现，同样的算法生成诗歌，中文的表现比英文好一截。这就好比两个人搬砖，一个人搬的数量多但每块砖都小，另一个人搬的数量少但每块砖大一倍。最后谁搬的总重量大？还真不好说。所以别急着下结论说“中文不适合AI”。联合国的文件薄了七八十年，这个事实不会因为大模型的出现就翻盘。技术是技术，语言是语言。汉字这套用了三千多年的表意系统，不是给机器设计的，但机器的算法也在慢慢适应它。说不定再过几年，等分词技术再进几步，中文那个“压缩包”的优势，在AI世界里也能重新支棱起来。到那时候，联合国那本最薄的文件，就是最好的证明。

0 阅读：0