一段式端到端方案的本质是让模型通过海量数据学习人类驾驶的 “直觉” 与 “逻辑”,今年的FSD和 已经验证了VA model 的可行性[举手][举手]
好的一段式端到端最核心的优势是延迟更低,控车更稳,但我前面也说过,E2E非常依赖驾驶数据的匹配,说到底是很难将分类场景写全写好,总会有一些长尾场景,并且出现按下葫芦起瓢的情况是经常的事情,套用爱情公寓里唐悠悠18张信用卡互相还款的片段(可能不恰当),就是对于每个场景的数据匹配是需要非常细微的调整,些许差池都将无法完成炼丹,而且一段式端到端一旦炼出来了,你是很难去调整的,只能重新炼丹。但你能保证下一次的炼丹能保证质量,至少不会退么?[雪糕][雪糕]
所以HSD可以在这样小体量的数据集下,炼出这样一个在行车端工程落地完成度这么高的一套系统是真的很不容易,苏博NB!我怀疑HSD可能是以1:8甚至1:9去做数据匹配。然后再去做仿真数据的(纯猜)。这里有一个非常有趣的点啊,比如说我们要做一个掉头(turn round)的数据,HSD怎么做呢?首先呢,HSD的可用数据不够,那有可能会将一个原本一分钟的数据片段,拆分开来,拆成20秒或者15秒一个。然后呢,把基于这个数据片段(拆分后)用仿真的数据把它前前面和屁股后面都补齐了,通过这种方式以1:4甚至1:5去做这样子。猜想一下,错了就错了doge
当然也跟地平线的朋友有聊过,HSD应该是也会外挂一个VLM来解决一些高级语义场景(长尾)
但这些尝试都将消耗大量的卡和资源,硬件基础才是硬实力,所以FSDV14还能带来这么多让人眼前一亮的操作
一段式端到端听不懂的汽车黑话