都说我是先明的小号，那我就来自我剖析下先明的说法。每每我们去看小鹏又发布了一个什

都说我是先明的小号，那我就来自我剖析下先明的说法。每每我们去看小鹏又发布了一个什么的时候， X-Foresight， X-World、XCache、世界模型等等等的时候，我们都需要关注更底层的判断。

过去大家在训练智驾的时候本质上是在问一个问题---经验丰富的老司机遇到这种情况，会怎么开？所以模型需要看大量的人类驾驶数据，学习人什么时候打方向盘、什么时候刹车、什么时候让行。这条路径肯定是有效的，但是呢，人类驾驶动作背后包含很多隐性经验。比如一个司机轻踩刹车，表面看只是刹车，但背后可能是他看到了前车减速、路口有遮挡，或者他预判行人要横穿马路---问题在于模型看到的通常只是“最后这个人踩了刹车”，它知道结果，但未必真的知道原因。

这就是世界模型要解决的问题。世界模型问的不是“老司机会怎么开”，它思考的问题是“这个世界接下来会如何变化”。前车会不会急刹？旁车会不会插进来？如果我现在变道，周围车辆会怎么反应？从“模仿司机”，变成了“理解交通世界”，这是另外一个开始。

用更通俗的话来讲，VLA 作为“学老司机开车”的极致而存在，世界模型则是在描述马路上所有事物的运动规律和互动规律。

一个模型用来告诉车，接着要怎么做。一个模型告诉车，世界接下来会如何变化。

此前确实有一些话题在讨论这俩货谁更高级---实际上都是不对的，他们其实从来不都不冲突，本来也不是同一个层面的问题。VLA 更靠近“决策动作”，世界模型更靠近“未来推演”---如果不刹车会发生什么；如果现在开过去，别人会不会躲开，等等等。

真正的智能驾驶，你肯定希望它知其然且知其所以然。VLA是那个知其然，而世界模型是那个“知其所以然”。

当你开始关注这个变化的时候，也会意识到背后的变化---训练信号变得很多。

人类驾驶动作是稀疏的。十秒钟里，司机可能就踩了一次刹车、打了一次方向，能拿来训练的“答案”并不多。但世界本身的变化是连续的。每一帧画面、每一辆车的移动、每一个行人的姿态变化、每一次车与车之间的博弈，都是训练信号。

这意着智能驾驶的学习对象，不再只是人类驾驶员，它是整个物理世界。

这就是先明说的 Physical World Foundation Model。翻译成人话，就是：给自动驾驶做一个“知道现实世界是如何运转”的基础模型。

先明要说的其实是一个更为宏大的的路线判断。学人开车，是在复现过去的驾驶经验。学习物理世界，则是在预测未来。

智能驾驶的上限，很快，就会出现新的高度。

小鹏汽车

0 阅读：0