美国斯坦福大学刚刚发布了一项让人极其不安的研究。 大语言模型的推理能力,可能只是一层一戳就破的窗户纸。 论文系统性地拆解了LLM在推理上的全面溃败。 为什么模型在排行榜上接近满分,但在实际应用中却漏洞百出? 核心结论只有一个:LLM并不是在推理,而是在伪造逻辑。 研究人员发现了一种被称为“不忠实推理”的现象。 模型能给出正确的答案,但背后的推导过程完全是编造的。 这就像一个作弊的学生,通过偷看答案反推了一个看似合理的解题步骤。 底层逻辑是什么? 现有架构缺乏物理世界的“具身”感知。 这意味着模型对重力、空间、因果等基本物理常识的理解几乎为零。 哪怕只是改动提示词里的一个无关紧要的虚词,模型的答案就会瞬间崩塌。 这种鲁棒性的缺失,暴露了它并不是掌握了逻辑,而是捕捉到了概率。 结果是什么? 我们正在把数以亿计的业务流程,交给一个逻辑随时可能离线、且擅长一本正经胡说八道的系统。 这已经不是技术优化的问题,而是AI地基是否存在缺陷的本质争论。 如果现有的自回归架构无法从概率模拟跨越到真正的逻辑演绎,Scaling Law的终点会在哪里? 是通往AGI,还是通往一个更庞大、更不可控的幻觉黑盒?
