SCSP在《The Robot Deficit》里有一个很关键的判断:美国在机器人总体产业竞争中已经落后于中国,但在下一代自主机器人软件上仍有优势。这种优势不是抽象的“AI强”,而是集中体现在五类关键技术:计算机视觉、实时决策、端到端神经网络、VLA模型和仿真训练。
第一,计算机视觉。
机器人首先要“看懂世界”。传统工业机器人面对的是固定工位、固定夹具、固定轨迹,环境高度标准化。但下一代机器人要进入仓库、医院、农田、实验室、柔性工厂,面对的是非结构化环境。物体位置会变化,光照会变化,人员会移动,任务也会临时改变。
美国在计算机视觉领域长期积累深厚,既有高校和实验室的基础研究,也有特斯拉、英伟达、谷歌、Meta等企业在自动驾驶、图像识别、空间感知上的工程积累。这些能力迁移到机器人领域,就形成了“视觉感知优势”。
第二,实时决策。
机器人不是摄像头,不能只识别环境,还要立刻做出动作选择。比如仓库机器人遇到突然出现的人,农业机器人面对不同成熟度的果实,医疗机器人面对微小组织变化,都需要在毫秒级、秒级时间内调整路径、力度和动作。
美国的优势在于,它长期在自动驾驶、无人机、国防系统、手术机器人和AI决策系统中积累了大量实时控制经验。这使美国机器人更擅长处理“不确定”和“突发变化”,而不是只在提前布置好的场景里完成动作。
第三,端到端神经网络。
过去机器人系统通常被拆成很多模块:感知、定位、规划、控制、执行。每一层都由工程师手工设计规则。端到端神经网络则试图改变这个范式,让一个模型直接从视觉、传感器和任务输入中学习动作输出。
这有点像自动驾驶从“规则堆叠”走向“模型驱动”。美国在这方面优势明显,因为特斯拉、Figure AI等公司正在把自动驾驶和大模型的经验迁移到机器人控制上。它们追求的不是让机器人完成一个固定动作,而是让机器人通过数据学习复杂动作。
第四,VLA模型。
VLA就是Vision-Language-Action,视觉—语言—动作模型。这是通用机器人智能的重要方向。它让机器人不只是“看到物体”,还要能理解人的语言指令,并把指令转化为动作。
比如人说:“把桌上的红色杯子拿到水槽旁边。”机器人要完成识别、理解、推理、抓取、避障和放置。这里面既有视觉识别,也有语言理解,还有动作生成。
美国在VLA模型上有明显领先。原因在于美国同时拥有大模型生态、机器人创业公司、算力平台、开源社区和资本支持。Figure AI、特斯拉、谷歌DeepMind等都在推进相关方向。VLA的本质,是把大模型能力从“语言世界”推向“物理世界”。
第五,仿真训练。
机器人学习最大的问题是:真实世界试错太贵、太慢、太危险。一台机器人在真实工厂里训练,撞坏设备、摔坏物料、伤到人员,成本都很高。仿真训练就是让机器人先在虚拟世界里反复练习,再迁移到真实世界。
美国在这方面的优势非常突出。英伟达Isaac Sim代表的是机器人时代的底层训练平台。它可以构建虚拟工厂、虚拟仓库、虚拟道路和虚拟物体,让机器人在数字环境中进行大规模训练。这背后依赖GPU、物理引擎、数字孪生、合成数据和AI训练工具链,而这些正是美国科技公司的强项。
所以,美国在机器人上的优势,不是传统工业机器人本体制造,而是下一代机器人“大脑”的基础设施。
中国的优势在“身体”和产业体系。IFR数据显示,2024年中国占全球工业机器人新增安装量54%,美国仅占6%。中国有更大的制造场景、更完整的供应链、更强的成本控制和更快的工程迭代。
但美国仍试图用软件重新定义机器人。计算机视觉让机器人看见世界,实时决策让机器人适应变化,端到端神经网络让机器人学习动作,VLA模型让机器人理解任务,仿真训练让机器人低成本进化。
未来机器人竞争,关键不只是“谁造得便宜”,也不是“谁模型更强”,而是谁能把这五类智能技术与高可靠、低成本的机器人本体结合起来。
中国强在产业落地,美国强在智能前沿。真正决定下一阶段格局的,是谁先把机器人“身体、小脑、大脑”打通。