“AGI(通用人工智能)即将到来”的乐观预期被狠狠打脸了。
全新AI基准测试ARC-AGI-3发布,结果:所有前沿大模型在该测试上的得分均低于1%,而100%的人类能在第一次尝试这些任务时解决。Gemini 3.1 Pro以0.37%领先,xAI的Grok 4.2拿到了刺眼的0%。
什么样的测试让顶尖大模型集体“吃鸭蛋”?ARC-AGI-3的题目不是传统意义上的“静态谜题”,而是实时交互的游戏环境:AI需要像人类一样,边玩边摸索规则,没有任何文字说明。
举个例子:FT09(重叠网格的模式匹配)
第一关:屏幕上同时显示两个叠加的网格图案,有的地方重合,有的地方分开。AI需要找出规律:哪些部分叠加后会变成新颜色?哪些保持原样?
第二关:网格布局变了,叠加的规则没变。但AI需要重新理解新的视觉输入,而不是简单复用上一关的“记忆”。
人类看一眼就能抽象出规则,AI却在记忆和泛化之间彻底迷失。
为什么这些题对AI这么难?关键在于:没有自然语言指令,没有示例答案,需要实时探索+建立世界模型+规划。
ARC-AGI-3测的是AI是否真的“理解”,而不是“背下来了”。那些得分0%的模型不是输在计算力,是输在“从零学习新规则并泛化”这个能力上。这才是AGI真正的门槛。