晚点刚刚发了一篇蔚来任少卿的专访,信息量很大,聊了不少智驾的底层逻辑...
电动知识小妹
2025-10-10 01:16:38
晚点刚刚发了一篇蔚来任少卿的专访,信息量很大,聊了不少智驾的底层逻辑,很有意思。
这两年,业内都在卷“端到端”,但任少卿觉得这词只是智驾发展到特定阶段,“填历史旧账”的产物,没什么可吹的。他认为行业对VLA(视觉-语言-动作)的理解也偏了,本质还是语言模型打补丁,带宽太低,没法真正理解复杂的物理世界。
那蔚来的解法是什么?两条路,而且是两条难路一起走:
· 世界模型 (World Model): 这才是他认为的上限。不是在语言模型上“加”视觉,而是直接用视频做核心,让模型自己学习时空和物理规律,建立一套高带宽的“时空认知”体系。这套体系,才能和语言模型的“概念认知”互补,最终走向AGI。
· 强化学习 (Reinforcement Learning): 他觉得整个智驾行业都没真正重视RL。模仿学习只能教出“5秒记忆的金鱼”,处理不了30秒、60秒的长时序决策。想让车从“手把手教学”进化到能自己规划,必须靠强化学习。而且,面对海量的、并不完美的真实用户数据,也得靠RL来“洗”,把好的经验往前排,坏的往后压。
这套“世界模型 + 强化学习”的组合拳,决定了蔚来从一开始就选了一条“变态”的路:早在2021年推出的et7,就给到了高算力(4颗Orin)、多传感器(激光雷达)、全新架构。这种选择在当时不仅成本高,还直接导致了开发难度剧增,比如为了统一高速和城区的架构,宁愿推倒重来,忍受了一段时间的“慢”。
但现在回过头看,这种“慢”换来的是更扎实的地基。比如,4年前的et7,依然能跑现在最先进的NWM;他们能基于这套体系,把AEB(自动紧急制动)的真实场景覆盖率从10%提升到80%,和保险公司的数据一对,事故损失直接下降了25%。今年的目标更猛,要降50%。
这背后其实是一套完整的技术哲学:不为了跟别人赛跑,而是探索一条真正通向未来的路,哪怕过程要忍受不被理解。任少卿说自己现在的状态和读博时没什么两样,就是不断试错、叠加。
在大家都追求“短平快”的时候,这种坚持底层创新、着眼长远的耐心,反倒成了最稀缺的东西。智驾的竞争,可能短期看功能推送速度,但长期看的,还是谁的架构上限更高,地基更稳。
0
阅读:4