SCSP在《TheRobotDeficit》里有一个很关键的判断：美国在机器

SCSP在《The Robot Deficit》里有一个很关键的判断：美国在机器人总体产业竞争中已经落后于中国，但在下一代自主机器人软件上仍有优势。这种优势不是抽象的“AI强”，而是集中体现在五类关键技术：计算机视觉、实时决策、端到端神经网络、VLA模型和仿真训练。

第一，计算机视觉。

机器人首先要“看懂世界”。传统工业机器人面对的是固定工位、固定夹具、固定轨迹，环境高度标准化。但下一代机器人要进入仓库、医院、农田、实验室、柔性工厂，面对的是非结构化环境。物体位置会变化，光照会变化，人员会移动，任务也会临时改变。

美国在计算机视觉领域长期积累深厚，既有高校和实验室的基础研究，也有特斯拉、英伟达、谷歌、Meta等企业在自动驾驶、图像识别、空间感知上的工程积累。这些能力迁移到机器人领域，就形成了“视觉感知优势”。

第二，实时决策。

机器人不是摄像头，不能只识别环境，还要立刻做出动作选择。比如仓库机器人遇到突然出现的人，农业机器人面对不同成熟度的果实，医疗机器人面对微小组织变化，都需要在毫秒级、秒级时间内调整路径、力度和动作。

美国的优势在于，它长期在自动驾驶、无人机、国防系统、手术机器人和AI决策系统中积累了大量实时控制经验。这使美国机器人更擅长处理“不确定”和“突发变化”，而不是只在提前布置好的场景里完成动作。

第三，端到端神经网络。

过去机器人系统通常被拆成很多模块：感知、定位、规划、控制、执行。每一层都由工程师手工设计规则。端到端神经网络则试图改变这个范式，让一个模型直接从视觉、传感器和任务输入中学习动作输出。

这有点像自动驾驶从“规则堆叠”走向“模型驱动”。美国在这方面优势明显，因为特斯拉、Figure AI等公司正在把自动驾驶和大模型的经验迁移到机器人控制上。它们追求的不是让机器人完成一个固定动作，而是让机器人通过数据学习复杂动作。

第四，VLA模型。

VLA就是Vision-Language-Action，视觉—语言—动作模型。这是通用机器人智能的重要方向。它让机器人不只是“看到物体”，还要能理解人的语言指令，并把指令转化为动作。

比如人说：“把桌上的红色杯子拿到水槽旁边。”机器人要完成识别、理解、推理、抓取、避障和放置。这里面既有视觉识别，也有语言理解，还有动作生成。

美国在VLA模型上有明显领先。原因在于美国同时拥有大模型生态、机器人创业公司、算力平台、开源社区和资本支持。Figure AI、特斯拉、谷歌DeepMind等都在推进相关方向。VLA的本质，是把大模型能力从“语言世界”推向“物理世界”。

第五，仿真训练。

机器人学习最大的问题是：真实世界试错太贵、太慢、太危险。一台机器人在真实工厂里训练，撞坏设备、摔坏物料、伤到人员，成本都很高。仿真训练就是让机器人先在虚拟世界里反复练习，再迁移到真实世界。

美国在这方面的优势非常突出。英伟达Isaac Sim代表的是机器人时代的底层训练平台。它可以构建虚拟工厂、虚拟仓库、虚拟道路和虚拟物体，让机器人在数字环境中进行大规模训练。这背后依赖GPU、物理引擎、数字孪生、合成数据和AI训练工具链，而这些正是美国科技公司的强项。

所以，美国在机器人上的优势，不是传统工业机器人本体制造，而是下一代机器人“大脑”的基础设施。

中国的优势在“身体”和产业体系。IFR数据显示，2024年中国占全球工业机器人新增安装量54%，美国仅占6%。中国有更大的制造场景、更完整的供应链、更强的成本控制和更快的工程迭代。

但美国仍试图用软件重新定义机器人。计算机视觉让机器人看见世界，实时决策让机器人适应变化，端到端神经网络让机器人学习动作，VLA模型让机器人理解任务，仿真训练让机器人低成本进化。

未来机器人竞争，关键不只是“谁造得便宜”，也不是“谁模型更强”，而是谁能把这五类智能技术与高可靠、低成本的机器人本体结合起来。

中国强在产业落地，美国强在智能前沿。真正决定下一阶段格局的，是谁先把机器人“身体、小脑、大脑”打通。