都说我是先明的小号,那我就来自我剖析下先明的说法。每每我们去看小鹏又发布了一个什么的时候, X-Foresight, X-World、XCache、世界模型等等等的时候,我们都需要关注更底层的判断。
过去大家在训练智驾的时候本质上是在问一个问题---经验丰富的老司机遇到这种情况,会怎么开?所以模型需要看大量的人类驾驶数据,学习人什么时候打方向盘、什么时候刹车、什么时候让行。这条路径肯定是有效的,但是呢,人类驾驶动作背后包含很多隐性经验。比如一个司机轻踩刹车,表面看只是刹车,但背后可能是他看到了前车减速、路口有遮挡,或者他预判行人要横穿马路---问题在于模型看到的通常只是“最后这个人踩了刹车”,它知道结果,但未必真的知道原因。
这就是世界模型要解决的问题。世界模型问的不是“老司机会怎么开”,它思考的问题是“这个世界接下来会如何变化”。前车会不会急刹?旁车会不会插进来?如果我现在变道,周围车辆会怎么反应?从“模仿司机”,变成了“理解交通世界”,这是另外一个开始。
用更通俗的话来讲,VLA 作为“学老司机开车”的极致而存在,世界模型则是在描述马路上所有事物的运动规律和互动规律。
一个模型用来告诉车,接着要怎么做。一个模型告诉车,世界接下来会如何变化。
此前确实有一些话题在讨论这俩货谁更高级---实际上都是不对的,他们其实从来不都不冲突,本来也不是同一个层面的问题。VLA 更靠近“决策动作”,世界模型更靠近“未来推演”---如果不刹车会发生什么;如果现在开过去,别人会不会躲开,等等等。
真正的智能驾驶,你肯定希望它知其然且知其所以然。VLA是那个知其然,而世界模型是那个“知其所以然”。
当你开始关注这个变化的时候,也会意识到背后的变化---训练信号变得很多。
人类驾驶动作是稀疏的。十秒钟里,司机可能就踩了一次刹车、打了一次方向,能拿来训练的“答案”并不多。但世界本身的变化是连续的。每一帧画面、每一辆车的移动、每一个行人的姿态变化、每一次车与车之间的博弈,都是训练信号。
这意着智能驾驶的学习对象,不再只是人类驾驶员,它是整个物理世界。
这就是先明说的 Physical World Foundation Model。翻译成人话,就是:给自动驾驶做一个“知道现实世界是如何运转”的基础模型。
先明要说的其实是一个更为宏大的的路线判断。学人开车,是在复现过去的驾驶经验。学习物理世界,则是在预测未来。
智能驾驶的上限,很快,就会出现新的高度。
小鹏汽车
