为什么“世界模型”是智能驾驶的更优方案?
任少卿的核心思路解析:
在智能驾驶技术路线的争论中,任少卿及其带领的蔚来智驾团队,将“世界模型”视为突破行业瓶颈、通向终极目标的关键。其核心逻辑围绕现有方案的局限性、世界模型的不可替代价值,以及与AGI(通用人工智能)的衔接展开,具体可拆解为三大核心观点:
❶现有主流方案存在“能力天花板”
(无法应对真实世界复杂性)
任少卿认为,当前行业聚焦的“端到端”和“VLA(视觉-语言-动作)”模型,本质是阶段性产物,存在难以突破的短板:
• 端到端模型:只能“填坑”,做不了“长远规划”:端到端虽能将感知、预测、决策等模块整合,但依赖“模仿学习”——像老师手把手教5秒内的操作,一旦场景拉长到30秒、1分钟(如匝道拥堵绕行、复杂路口预判),就会因缺乏长时序推理能力失效,只能处理“短平快”的即时反应,无法覆盖真实驾驶的连续动态场景。
• VLA模型:语言带宽有限,承载不了物理世界细节:VLA虽在语言模型基础上叠加视觉和动作,但“根仍在语言”——语言是低带宽载体,一张交通照片里的“车辆间距、行人姿态、路面状况”,用文字描述需大量篇幅且易遗漏;动态场景中“车辆突然变道的意图、骑车人的细微转向”,更是语言难以精准传递的。这导致VLA无法完整捕捉真实世界的复杂信息,只能处理“语言能描述”的有限场景。
❷世界模型补全“时空认知”短板
(契合智能驾驶核心需求)
智能驾驶的本质是“让机器像人一样理解物理世界”,而世界模型恰好解决了这一核心问题——它不依赖语言,直接以视频为核心建立“时空认知能力”,具体有两大关键价值:
• 内建物理规律,让机器“懂世界规则”:世界模型会通过跨模态数据(视频、激光雷达、导航信息),自主学习重力、惯性、速度变化等物理规律。比如看到“前方车辆刹车灯亮起”,模型能预判“它会减速,我需要保持安全距离”,而非像传统模型那样依赖人工写死的“刹车灯亮=减速”规则,更贴近人类对世界的本能理解。
• 建模长时序时空,让机器“能长远规划”:通过“自回归生成模型”,世界模型能自动学习物体在“三维空间+时间”中的运动逻辑。比如在高速上看到“2公里后有施工占道”,模型能提前规划“何时变道、保持多少车速”,而非到了跟前才临时反应;面对“小区内行人突然跑出”,也能结合“行人动线、本车速度”预判几秒后的碰撞风险,做出更从容的决策——这正是人类驾驶中“预判式操作”的核心,也是现有模型缺失的能力。
❸世界模型是智能驾驶通向AGI的必经之路
任少卿的底层逻辑是:智能驾驶不是孤立的“汽车功能”,而是AGI在物理世界的重要载体,而世界模型是二者的关键衔接:
• 语言模型解决“概念认知”,世界模型解决“物理交互”:语言模型让AI懂“什么是汽车、什么是行人”(概念认知),但AGI需要“在物理世界中正确行动”(如“看到行人要减速”“过弯要控速”),这就需要世界模型的“时空认知”来落地——二者结合,才能让AI既“懂概念”又“会行动”,真正具备通用智能。
• 车是“具身智能”的最佳场景,世界模型是其核心能力栈:任少卿认为“车本身就是具身智能”(除了没腿,能移动、能感知、能交互),而世界模型正是为“具身智能”量身打造的——它通过真实车辆的海量动态数据(摄像头、雷达记录的路况)持续学习,不断优化对物理世界的理解,这种“从真实场景中学习、再应用到真实场景”的能力,是其他AGI场景(如机器人)难以快速复制的,也让世界模型成为智能驾驶通向AGI的唯一可行路径。