这篇由浙江大学和理想汽车联合研发的论文，提出了一款名为LinkVLA的全新自动驾

这篇由浙江大学和理想汽车联合研发的论文，提出了一款名为LinkVLA的全新自动驾驶模型，核心解决了当下自动驾驶中 “语言指令和实际操作脱节”“运算速度慢” 两大关键问题

论文链接：网页链接

一、解决的核心痛点过去的自动驾驶视觉 - 语言 - 动作（VLA）模型，存在两个明显问题：

“听不懂” 指令：比如人类说 “向左变道”，模型可能理解了但实际开出来的路线却是保持原车道，语言指令和实际驾驶动作脱节，影响安全性；

“反应慢”：模型生成驾驶动作时是一步一步计算，像人慢慢数步数，运算耗时久，实际驾驶中容易出现延迟，不适合真实道路场景。

二、LinkVLA 的三大 “创新妙招”，既懂指令又提速为了解决上述问题，研究团队给模型设计了三个核心改进

※简单来说就是※①统一 “语言” 和 “动作” 的表达②让模型学会 “双向理解”、把慢运算改成 “两步快运算”：③给语言和驾驶动作做 “统一翻译”

把人类的语言指令（如 “加速”“绕开施工区”）和汽车的驾驶动作（如走哪条路线、加减速），都转换成模型能统一识别的 “数字代码”-，就像给两者制定了同一种 “语言”，从根源上避免模型理解指令和执行动作时出现偏差。

同时针对驾驶动作的精准性做了优化，比如车辆附近的路线会计算得更细致，让变道、跟车这些近距离操作更准确。让模型学会 “双向思考”，更懂指令

不仅训练模型 “听懂指令做动作”（比如听到 “减速” 就踩刹车），还训练它 “看自己的驾驶动作，反过来说出对应的指令”（比如看到自己在减速，能说出 “因为前方有车，所以减速”）。

这种双向训练让模型对语言和动作的关联理解更深刻，就像人既会听指令做事，也会解释自己做的事，自然能更精准地跟着人类指令开。并且这个改进让模型的运算耗时直接减少了 86%，解决了 “反应慢” 的问题，同时还能保证路线的准确性。

三、实际测试效果：驾驶更稳、指令执行更准、速度还快

在专业的自动驾驶模拟测试平台（CARLA）上，LinkVLA 的表现远超之前的主流模型，综合驾驶评分达到 91.01，成功率 74.55%，；面对 “加速”“变道”“停车” 等不同语言指令，整体执行成功率达到 87.16%，尤其是变道、加速这些高频指令，执行准确率接近 97%；优化后的运算速度，仅比最快的传统模型慢一点点（每步 48ms vs 34ms）

简单来说，LinkVLA直接把语言和轨迹塑造成了同一种数字语言，从源头上不再需要翻译，让其具备了真正的语义稳定性。

0 阅读：0