Xianming 的中文名叫先明,没有固定需要英文的说法,他长期base在海外,所以可能习惯用的英文。
这次他聊了几个的观点,和大家分享:
1、现在还没有说自己能达到百分之百的L4,但是现在整个VLA2.0搭建了一套非常通用并且高效的架构。
2、在自动驾驶上验证过的 AI 能力,相信可以大规模迁移到座舱上,而不是割裂的一个东西。自动驾驶积累的经验和底层 AI 基础架构,都可以完全复用。
3、L4 或者自动驾驶已经发生很大的技术范式变化,Waymo也开始在做基座这类事情,做好基座模型,是一家做L4公司的必修课。不做这件事,就可能在这次技术转型中落在后面,或者没办法完成完整的技术转型。
4、小鹏整个VLA或基座模型的设计是原生多模态,不太会只针对自动驾驶,是可以复用的。现阶段小鹏先在车上先把整个事情跑完,下一步会推进舱驾联动。
5、对于人类驾驶数据,目前还没有看到明显的收敛趋势,我们在联合优化芯片、编译器和模型本身来提升效率,也会进一步推升模型规模。这两者一定是相辅相成的,数据没有到头,模型规模也没有到头。
6、强化学习不是万金油。现在学术界、工业界都在说强化学习很厉害,但它一定需要一个非常强的基座模型,至少能采样到解决这个问题的可行解。
如果连这个能力都没有,强化学习就没办法继续提升。但强化学习是效率特别高、能定向解决问题,并且能持续探索长尾问题的一种学习方式。所以我觉得大家不用把强化学习当成可解万物的万能解,而是一个非常高效的学习方法。
7、大算力一定需要更高信息密度的输入、更大的模型来匹配,否则算力就是空转。这些因素合在一起就意味着如果只是搞算力军备竞赛、单纯堆高数值,消费者是感受不到明显的体感提升的。一定是多方面协同推进,不能只看单一指标。
8、大家纠结 VLA 和世界模型,可能不需要,今天我们一直在说的一件事,世界模型其实本质上是对世界3D空间的理解、运动规律的理解,最终以一种形式展现出来,这个和 VLA 本质没有什么太大的区别。
就是你想把一个车开好,让机器人控制得好,或者让功能做得好,首先先要去理解这个世界的3D空间,理解整个推演的规律,并且能向前去推演,评价什么动作是有风险的,什么动作是没有风险的,这个是我们的一些看法,不见得是对的,但是至少目前我们在朝着这个方向努力。
小鹏第二代vla发布小鹏汽车
