“AGI（通用人工智能）即将到来”的乐观预期被狠狠打脸了。全新AI基准测试ARC

丁丁说车丁丁啊 2026-03-30 19:51:43

“AGI（通用人工智能）即将到来”的乐观预期被狠狠打脸了。

全新AI基准测试ARC-AGI-3发布，结果：所有前沿大模型在该测试上的得分均低于1%，而100%的人类能在第一次尝试这些任务时解决。Gemini 3.1 Pro以0.37%领先，xAI的Grok 4.2拿到了刺眼的0%。

什么样的测试让顶尖大模型集体“吃鸭蛋”？ARC-AGI-3的题目不是传统意义上的“静态谜题”，而是实时交互的游戏环境：AI需要像人类一样，边玩边摸索规则，没有任何文字说明。

举个例子：FT09（重叠网格的模式匹配）

第一关：屏幕上同时显示两个叠加的网格图案，有的地方重合，有的地方分开。AI需要找出规律：哪些部分叠加后会变成新颜色？哪些保持原样？

第二关：网格布局变了，叠加的规则没变。但AI需要重新理解新的视觉输入，而不是简单复用上一关的“记忆”。

人类看一眼就能抽象出规则，AI却在记忆和泛化之间彻底迷失。

为什么这些题对AI这么难？关键在于：没有自然语言指令，没有示例答案，需要实时探索+建立世界模型+规划。

ARC-AGI-3测的是AI是否真的“理解”，而不是“背下来了”。那些得分0%的模型不是输在计算力，是输在“从零学习新规则并泛化”这个能力上。这才是AGI真正的门槛。

0 阅读：0

丁丁说车丁丁啊

感谢大家的关注

作者最新文章

1

“AGI（通用人工智能）即将到来”的乐观预期被狠狠打脸了。全新AI基准测试ARC

2

丁丁的宠粉计划2026 每月6日/16日，抽1位铁粉，送600元现金红包1个。关

3

激光雷达版乐道L90，会不会加量不加价

4

早上5点多的成都天府机场，热闹得像个菜市场。都是进藏的朋友吗

5

Anthropic的全新模型Claude Mythos泄露了！AI圈翻天了！这个

6

不是致歉，是致敬

7

刚刚从飞机上拍的，大山中孤零零几个大柱子，挺壮观

8

成功的道理分两类：一类是所有人知道了都有用，这其实就是常识，比如好好睡觉、好好运

9

如果你是铲屎官，想买一台对萌宠友好的家用SUV，那么起步价仅仅6.58万的零跑A

10

智己LS8也来了，提供5座和6座两个版本，预售25.98万起，起步就给52度大电

热门分类

汽车TOP

1

2月进口车型销量前3名：雷克萨斯ES、奔驰GLE、雷克萨斯RX

2

小米SU7发布会来了很多大佬，比亚迪王传福、理想理想、小鹏何小鹏、凡客陈年、王辉

3

这两个车牌号，哪个更贵？

4

奔驰车，真的是世界独一挡

5

极氪8X预售价出来了，37.68万起，顶配曜影版干到51.68万。说实话，这价格

6

斯柯达将于今年年中退出中国市场，如果说大众的油车不大幅度的降价在国内都卖不动的话

7

比亚迪的闪充站对外开放，于用户而言是件好事，可对其他车企来说，却压力重重。为何如

8

问界M9🆚尊界M900，你会选谁？适合家用和商务的级别，哪个更适合些？

9

侧颜

10

现款6.98万元起售的比亚迪海鸥，疑似新款（2026款）海鸥车型的车顶安装了激光

汽车最新文章

1

奥迪A6与迈腾B9对比，抛去品牌价值，迈腾沉稳大气，奥迪的吊坠试前脸有些压不住了

2

赛力斯年报出来了，两个字：真烂！不过，前面半年的走势已经很好的反应了这一份垃圾年

3

全新qq3上市王者归来一部到位1.四款车型普遍比预售便宜了一万块左右2.420

4

昨天就该订的晚了一步得等好久了

5

赛力斯2025年营业收入1648.88亿看到这份年报，我只有一个感受，那就是赛力

6

全新坦克700预售，价格有惊喜，Hi4-Z价格比Hi4-T更低，起售只有43.8

7

跟着魏建军看懂全新坦克700魏建军的“摩登DAY”，其实是在全新坦克700陪伴

8

德系车大众推出9X，涌入了本已经比较拥挤的9系市场。车身长宽高分别为5207mm

9

电动车涨价原因给我吓一激灵，心想什么档次的厂家，还敢涨价？结果说的是电动自行车最

10

理想原来研发量产端到端模型的负责人夏中谱，和地平线副总裁张玉峰一起去做具身智能了