小米这68页的《MiMo-Embodied》技术报告,其实是在宣布...

电动知识小妹 2025-11-27 00:18:48
小米这 68 页的《MiMo-Embodied》技术报告,其实是在宣布:小米正在试图拆掉自动驾驶和具身智能(机器人)之间的那堵“墙”。 以前行业里的路数是割裂的:搞智驾的卷车端感知、卷 BEV;搞机器人的卷抓取、卷室内导航。大家各玩各的,数据不通,逻辑不通。 但小米这次开源的 MiMo-Embodied,搞了一个大胆的尝试:Cross-Embodied(跨具身)。简单说,就是让同一个大模型,既能看懂红绿灯和车道线,也能看懂桌子上的苹果该怎么抓,甚至还能把这两套逻辑打通,互相促进。 这事儿为什么重要?报告里有几个核心逻辑非常值得深挖: 1. 物理世界的“通感”是存在的。 报告里提到的“正向迁移”(Positive Transfer)很有意思。数据表明,让模型学习室内的空间关系(比如判断水壶在椅子的左边),能反过来提升它在开放道路上的感知能力;反之,驾驶场景中的动态博弈,也能帮机器人更好地理解因果逻辑。 这说明,无论是车还是机器人,底层的空间理解(Spatial Understanding)和启示性预测(Affordance Prediction)是相通的。小米把这两类数据扔进一个锅里炖,结果是在 17 个具身智能榜单和 12 个自动驾驶榜单上,都拿到了 SOTA(最佳),甚至在很多细分项上干掉了 GPT-4o 和专门的智驾模型。 2. 训练策略上的“长期主义”味道很浓。 注意看它的四阶段训练法,非常有章法: Stage 1 & 2:先学通用的具身知识,再突击自动驾驶专有知识; Stage 3:引入了CoT(思维链)。这点很关键,不仅要模型输出“向左转”,还得让它像老司机一样碎碎念“因为前面有障碍物且左侧车道空闲,所以向左转”。这增加了决策的透明度和可解释性。 Stage 4:上了RL(强化学习),而且用了 GRPO 算法。这简直就是把大语言模型的训练范式完美复刻到了物理世界,用奖励机制去逼出模型的极限能力。 3. 解决“长尾”的新思路。 不管是自动驾驶的 Corner Case,还是机器人面对复杂家庭环境的无所适从,本质上都是泛化能力不够。MiMo-Embodied 这种“大力出奇迹”的统一模型路子,用海量的跨域数据去喂养一个通用的“大脑”,可能是解决物理世界长尾问题最高效的路径。 另外,小米这次直接把代码和模型开源了,对于行业来说,这意味着以后做端到端智驾或者做机器人的团队,有了一个非常强悍的“基座”可以参考。 雷军常说“人车家全生态”,以前我觉得是联网控制,现在看,小米是想让“人车家”背后的那个 AI 大脑,真正实现物理层面的统一。 这才是真正的“万物互联”吧,连脑子都连上了。[流鼻血]

0 阅读:1
电动知识小妹

电动知识小妹

感谢大家的关注