平均1个token代表0.5至1个汉字,而能代表0.75个单词,明显地,程序不是

中华文字之伯乐 2026-03-31 15:10:51

平均1个token代表0.5至1个汉字,而能代表0.75个单词,明显地,程序不是中国设计的。这样的情况,中文效率低很多,特别是在LLM下的智能管理,效率低几十倍。 本来,汉语LLM下,平均1个token理应代表2个汉字左右甚至更多。这样的话,LLM智能体,汉语效率要高几十倍。 希望我国能有自己的原创程序,改变这一不利的局面。 ​

0 阅读:82

评论列表

大唐圣狗蛋

大唐圣狗蛋

3
2026-04-01 07:42

deepseek 不是原创吗?润人看不到自己不想看见的东西

中华文字之伯乐

中华文字之伯乐

感谢大家的关注