技术巡猎蔚来泊车模型训练方法、泊车控制方法、智能设备及存储介质。自动泊车不是

技术巡猎蔚来泊车模型训练方法、泊车控制方法、智能设备及存储介质。自动泊车不是“能不能泊”这么简单的事情，对于用户来说，真正敏感的是过程。一台车从车位里出来时，如果一开始大幅摆动，轨迹曲率很大，离两边障碍物忽远忽近，哪怕最后成功泊出，用户也会很紧张。尤其是车位很窄、旁边停着车、前后空间有限的时候，系统每一次转向和换挡都会被放大。

这份蔚来智驾专利处理的就是泊出体验。端到端泊车功能的体验正在接近人类驾驶体验。泊出过程里，摇摆小、效率高、安心感高，是决定体验的关键。泊出和泊入还不一样，泊出初始空间更为受限，自车和周围障碍物距离近；初始阶段运动方向会强烈影响后续轨迹；不同车位类型，比如垂直车位、斜列车位和平行车位，泊出策略也不一样。

如果用一套统一策略去处理，就容易出问题，初始阶段轨迹稳定性不足，产生不必要的大幅转向或轨迹抖动；车位内轨迹曲率偏大，影响舒适性和可控性；车辆与两侧障碍物距离分布失衡，带来安全风险。

专利的方案，是基于泊出场景数据，用强化学习方法训练泊车模型。

这里的关键是奖励函数。它把泊出过程拆成两个阶段。第一泊出阶段，是车辆中心点与车位中心点之间距离小于预设距离阈值的阶段；第二泊出阶段，是距离大于等于该阈值的阶段。

第一阶段的奖励，和泊出规划轨迹的曲率、航向角有关。比如瞬时曲率超过阈值，就给负向调整；航向角变化率过大，或者变化率本身波动太大，也会给惩罚，也就是说不鼓励车在刚出库时猛打方向、突然摆头。

第二阶段的奖励，则关注车辆与两侧障碍物之间的距离。对于垂直车位或斜列车位，系统会实时获取车辆与车位两侧障碍物的最小距离，计算两侧距离比例。如果比例关系在预设区间内，给正向奖励；偏离区间，就给负向惩罚。后面还可以加入曲率平顺奖励、换挡频次奖励，以及速度、加速度、换挡次数、成功泊出、碰撞惩罚等基础泊车奖励。

这套方法的意思是，模型学到的不是“想办法出去”，而是“用更平顺、更均衡、更让人放心的方式出去”。

这很关键。因为泊车控制里的“成功”的定义非常粗暴。如果只看最后有没有离开车位，模型可能学会一些用户完全不喜欢的动作，比如大幅转向、频繁修正、靠近一侧障碍物再猛拉回来。人类驾驶员为什么让乘客更放心，不只是因为能出去，而是因为动作有预判，车身姿态和周围距离看起来都比较可控。

奖励函数就是在告诉模型什么叫“好”。曲率过大要扣分，航向角变化过猛要扣分，两侧距离失衡要扣分，换挡次数太多也要扣分。这样训练出来的泊车控制，才有机会从功能可用走向体验可信。

很多智能驾驶功能的问题，就在于动作不像人。自动泊车如果每次都贴着一侧障碍物走，或者反复大角度修正，用户会本能想接管。强化学习奖励函数如果只盯成功率，很可能学出激进动作；把曲率、航向角、两侧距离和换挡频次放进奖励里，这才能够把用户安心感写进训练目标。

0 阅读：0