简单写写ADS 5发布会提到的「在线强化学习(Online RL)」和「多车博弈」:
不同于离线学习(Offline RL)依赖静态数据集,在线强化学习通过“执行-反馈-修正”的闭环,根据实时环境反馈动态调整策略,对长尾场景的覆盖更好
华为官方数据表明:ADS 5 在线强化学习效率提升 10 倍。算法能更快速地从新交互数据中提取特征,大幅缩短模型迭代周期。
它的挑战在算力。
云端需要极高的大规模分布式训练与仿真推演能力,车端则负责毫秒级实时推理。同时很考验工程能力,要保证模型在动态数据分布下的稳定。
仿真环境下的多车博弈,本质是对真实交通参与者行为意图的建模与动态博弈。
通过在云端的高并发推演,车端“世界行为模型”能精准构建安全风险场。
多车博弈能逼真模拟无保护左转、多车并线等复杂路况。博弈强度的提升,能提升车端模型更强的防守性驾驶能力,来应对各类侵略性驾驶行为。
它的挑战是算力与博弈行为建模。
多车交互组合,随仿真车数量呈指数级增长,需要大规模的并行调度,对博弈逻辑的快速收敛要求极高
或许,这就是ADS 5开篇,就强调 60 EFLOPS 云端算力储备的原因。
华为乾崑智驾ADS5华为乾崑智驾ADS5正式发布华为乾崑技术大会
