前两天跟一个在联合国做过翻译的朋友聊天,他说了个有意思的事。每次开会发资料,中文版永远最薄。一开始他以为是印刷问题,后来发现不是。同样一份《联合国宪章》,中文版两万六千多字,英文版五万五千词起步。同一个意思,英文愣是多写了一倍的字。他说这话的时候表情特平淡,但我听完后背一凉——我们每天敲的汉字,原来这么“能装”? 这事还真有科学依据。信息论那个叫香农的老爷子,当年算过一个东西叫“信息熵”。说白了就是测量每种文字一个符号能装多少信息。他算出来:英文字母大概4个比特,汉字能干到9.65比特。翻译成人话就是,你写一个汉字,塞进去的信息量顶两个半英文字母。所以中文文件薄一半,不是玄学,是数学。 那汉字凭啥这么能装?我琢磨了一下,最核心的原因就一个:汉字是二维的。英文是线性排队,字母一个一个傻站着。汉字不一样,横竖两向铺开,笔画跟搭积木似的。一个“爨”字快三十画,但信息量顶得上一小段英文。更妙的是“旧词装新义”——英文冒出个激光就叫laser,你得硬记。汉字呢?激光俩字,激和光你本来就认识,组合一下新概念就出来了。 牛津大学做过统计,英文每年要新增八千多个新词,过去一百年从二十万词涨到一百多万。中文呢?根本不用造新字。电脑、手机、云计算、人工智能——翻来覆去就那么三四千个常用字,组合一下啥都能表达。这就好比你有26个积木,对方有三千多个积木,但每个积木块还特别小。你说谁搭东西快? 但有意思的来了。你以为汉字这么牛,AI肯定也喜欢吧?恰恰相反。大模型不直接读字,它先把文字切成一堆叫token的小块。英文里“the”“is”这种常见词,整个算一个token。中文呢?每个汉字几乎都要被切成一个token。我拿同一段技术文本试过,英文210个token,中文209个。对人类大脑高效得飞起的压缩包,在AI面前优势几乎归零。 不过这事还没完。有工程师在训练中文模型时发现一个有意思的现象:虽然token数量差不多,但每个中文token里塞进去的语义更完整,模型学习效率反而更高。有人做测试也发现,同样的算法生成诗歌,中文的表现比英文好一截。这就好比两个人搬砖,一个人搬的数量多但每块砖都小,另一个人搬的数量少但每块砖大一倍。最后谁搬的总重量大?还真不好说。 所以别急着下结论说“中文不适合AI”。联合国的文件薄了七八十年,这个事实不会因为大模型的出现就翻盘。技术是技术,语言是语言。汉字这套用了三千多年的表意系统,不是给机器设计的,但机器的算法也在慢慢适应它。说不定再过几年,等分词技术再进几步,中文那个“压缩包”的优势,在AI世界里也能重新支棱起来。到那时候,联合国那本最薄的文件,就是最好的证明。
