想到一个传统意义的E2E和VLA最大的差异1️⃣传统的E2E，我们都知道非

想到一个传统意义的E2E 和VLA 最大的差异

1️⃣传统的E2E，我们都知道非常依赖驾驶数据的匹配，所谓的在调整不同场景的数据匹配，我们做数据匹配本质上是对数据场景进行分类。在工程角度我看到最多的分类场景也就100多种【总共千万级Clips】因此，总有一些长尾场景或者因为数据匹配不当导致的模型能力偏移。

也就是说非常依赖数据匹配负责人的能力，而人类的数据分类是有穷尽的【虽然理论上可以进行千类/甚至万类】场景分类，但是在工程上不具有落地/可维护性

此外，我们的驾驶场景中也有大量的需要文字/语言理解能力的驾驶经验去推理【不是E2E 不能做，只是会比较难，最直接的就是限行/可变车道/潮汐车道/可变待行区等等】

还有就是超过驾驶能力场景的知识库，例如网约车/工程车等特殊车辆，或者推推车的妈妈可能周围有小孩等等…

因此，我们当然可以用E2E做一个非常非常好的驾驶辅助，甚至有好的数据匹配和工程落地能做到非常非常棒甚至比现在的VLA都要强，最典型的例子就是地平线现在这套苏博做的 HSD hsd一段式端到端体验完全没毛病，能力非常强。

但是我坚持认为，如果要去做更高场景，可能需要加入语言的模块或者其他具备多模态的能力【多模态世界模型】 etc

所以再说一下，VLA

2️⃣：我们确实都知道因为VLA 的主干是LLM，LLM先天对空间理解能力就不如传统的VA E2E 。所以客观存在回推，没问题。

但是我们同样要考虑到因为有了LLM，所以我们去迭代模型的过程中更多是去调整基座模型后蒸馏再去上车，而不是每次都进行数据匹配后训练这个神经网路。所以更不容易出现【按下葫芦起瓢的情况】

此外，因为有了LLM，我们可以1. 更容易让模型获得多模态的信息大雁应该知道这个有多重要，VA模型很难吃各种乱七八糟的信息； 2.具备分场景的优化能力，所以理论上可以对场景进行细化而不影响原有场景的能力，不怎么影响； 3. 可以调用大量非驾驶的数据，而不是原先的VA只是一个具备非常优秀驾驶本能的专车司机

当然，VLA有大量的局限性，上下文容量不足，空间理解能力弱，推理慢，车端算力弱等等…

如果觉得我说的不对，那就是你对[二哈]

0 阅读：0