云铭
进化之路 · 扫码阅读
微信 · 浏览器扫码
在手机上获得更好的阅读体验
物理AI深度研究:AI从“会说”走向“会做”的产业拐点
过去三年,生成式AI解决了“语言、图像、代码如何生成”的问题;未来三到五年,真正昂贵的问题会变成:AI如何理解、预测并改变物理世界。所谓“物理AI”,不是给机器人接一个聊天机器人,而是把感知、推理、动作、仿真、控制和安全验证放进同一个闭环,让机器从“会说”走向“会做”。
一、物理AI到底是什么?
NVIDIA在其术语解释中给出的定义很直接:Physical AI 让摄像头、机器人、自动驾驶汽车等自主系统能够在物理世界中“感知、理解、推理,并执行或编排复杂动作”。这一定义的关键词不是“机器人”,而是物理世界中的行动能力:系统必须面对重力、摩擦、遮挡、碰撞、延迟、噪声、材料差异和不可逆后果。
因此,物理AI可以被理解为:
以多模态基础模型、世界模型、仿真系统和实时控制为核心,使机器能够在真实物理环境中完成可验证任务的AI系统。
它与几个相邻概念的关系如下:
| 概念 | 主要对象 | 关键能力 | 与物理AI的关系 |
|---|---|---|---|
| 生成式AI | 文本、图像、音频、视频、代码 | 生成内容、理解语义 | 提供“认知层”和数据生成能力,但本身不必行动 |
| 具身智能 | 有身体的智能体 | 感知—行动闭环 | 是物理AI最重要的实现范式之一 |
| 机器人 | 机械本体与控制系统 | 执行动作 | 是物理AI最典型的载体,但不是全部 |
| 自动驾驶 | 车辆与交通系统 | 感知、规划、控制、安全冗余 | 是最早规模化的物理AI场景之一 |
| 仿真/数字孪生 | 虚拟物理环境 | 低成本试错、数据合成、验证 | 是物理AI训练和安全测试的基础设施 |
一个判断标准是:如果AI输出的错误只会导致信息错误,它主要仍在数字AI范畴;如果错误会导致物理损伤、生产停线或交通事故,它就进入了物理AI范畴。
二、为什么2024—2026年成为拐点?
物理AI不是新概念。机器人学、控制论、强化学习和自动驾驶已经发展多年。真正的新变化,是四条曲线在同一时间交汇:
1. 多模态模型从“看懂图片”走向“输出动作”
Google的RT-2把视觉语言模型扩展为 Vision-Language-Action(VLA)模型,把互联网规模的视觉—语言知识迁移到机器人控制上,目标是让机器人不只识别物体,还能把语义理解转化为动作。随后,Open X-Embodiment / RT-X 数据集进一步把多实验室、多机器人形态的数据合并起来,项目页披露其包含超过100万条真实机器人轨迹、22种机器人形态和来自34个机器人实验室的60个数据集。
这说明机器人学习正在从“每个机器人、每个任务单独训练”,走向“跨本体、跨任务迁移”。这与大语言模型从小数据监督学习走向互联网规模预训练,是同一种范式迁移。
2. 世界模型从游戏环境走向物理世界模拟
Google DeepMind在2024年发布Genie 2,称其为“大规模基础世界模型”,能够生成可交互的多样训练环境,并在同一初始画面下生成不同反事实轨迹,用于训练未来智能体。NVIDIA在2025年CES发布Cosmos世界基础模型平台,定位为服务机器人和自动驾驶等物理AI系统,包含生成式世界基础模型、视频 tokenizer、护栏和加速视频处理流水线。
世界模型的意义不只是“生成视频”。对物理AI而言,它的核心价值是把训练从昂贵、危险、缓慢的真实世界,部分转移到可控、可并行、可回放、可标注的虚拟世界。
3. 仿真与合成数据成为新的“数据飞轮”
物理AI最缺的不是文本,而是带有状态、动作、力反馈、时序和失败案例的真实交互数据。真实采集往往昂贵、危险且难覆盖长尾场景。NVIDIA在Cosmos发布中明确指出,物理AI模型开发成本高,需要大量真实数据和测试;Cosmos的目标就是让开发者生成大量基于物理的视频数据,用于训练机器人和自动驾驶系统。
这意味着数据飞轮正在改变:
真实世界少量采集
↓
数字孪生 / 仿真环境重建
↓
合成视频、合成轨迹、反事实场景
↓
模型训练与策略学习
↓
真实机器人部署与回传数据
↓
继续校准仿真与模型
4. 机器人硬件从“科研样机”走向“工程产品”
人形机器人过去像火箭:技术炫目但离日常生产远。2024—2026年的变化,是头部公司开始把人形机器人当成可制造、可维护、可迭代的工业产品来设计。
Figure在2025年发布Figure 03,称其为第三代人形机器人,面向Helix VLA系统、家庭和规模化世界应用重新设计了传感器套件、手部系统、无线充电、音频和电池安全。Agility Robotics则把Digit定位为面向仓储和物流场景的“人形解决方案”,并配套Arc云端自动化平台,用于接入仓库管理、执行系统和机器人工作流。中国企业方面,宇树公开展示H1、G1等人形机器人产品线,智元机器人则把A2、G1、G2等产品与“具身智能数据服务”“一站式开发平台”放在同一官网体系中,说明行业竞争已经从单机硬件扩展到数据、开发平台和场景交付。
三、核心技术栈:物理AI不是一个模型,而是一套闭环系统
把物理AI理解为“机器人接入大模型”,会严重低估它的复杂性。一个可用的物理AI系统至少包含六层。
1. 感知层:从“识别物体”到“理解可操作性”
传统视觉系统回答“这是什么”;物理AI还要回答:
- 它能否被抓取?
- 重心在哪里?
- 表面是否会滑?
- 抓取后是否会变形?
- 它与其他物体是否存在约束关系?
因此,传感器不仅包括摄像头、深度相机、激光雷达,还包括力矩、触觉、IMU、关节编码器、麦克风乃至温度与压力传感器。物理AI的感知是“为了行动的感知”。
2. 认知层:VLM/VLA把语言、视觉和动作连接起来
Gemini Robotics是Google DeepMind在2025年发布的机器人模型,基于Gemini 2.0,强调让AI进入物理世界。其中Gemini Robotics是视觉—语言—动作模型,直接把物理动作作为新的输出模态;Gemini Robotics-ER则强化空间理解与具身推理。DeepMind提出,有用的机器人AI需要三种品质:general(能适应不同情况)、interactive(能快速理解并响应指令或环境变化)、dexterous(能灵巧操作)。
这三点也是衡量物理AI是否真正“通用”的核心指标。
3. 世界模型层:预测“如果我这样做,会发生什么”
语言模型预测下一个token,世界模型预测下一个世界状态。它可以用于:
- 生成训练环境;
- 预测动作后果;
- 做反事实推演;
- 为强化学习提供低成本试错场;
- 在部署前进行安全验证。
NVIDIA Cosmos把世界基础模型用于“世界生成、动作生成、世界仿真、合成视频数据”等方向,正是在补上物理AI缺少可扩展训练环境的短板。
4. 策略层:从任务规划到低层运动控制
用户说“把桌上的杯子递给我”,机器需要拆解为:定位杯子、规划路径、选择抓取姿态、控制手指力度、避开障碍、递给目标人、在对方接稳后松手。这里既有高层任务规划,也有毫秒级低层控制。
Physical Intelligence发布的π0(pi-zero)把自己称为通用机器人基础模型,训练于多样数据,能够接收文本指令,并跨图像、文本、动作输出低层电机命令。它的关键意义在于:机器人基础模型开始尝试直接跨越“语义理解”和“运动控制”之间的鸿沟。
5. 仿真层:Sim-to-Real是产业化必修课
真实机器人试错贵、慢且危险。仿真可以并行生成上万种场景:不同光照、货架高度、地面摩擦、物体材质、人类干扰、异常天气、传感器噪声。仿真不是为了替代现实,而是为了把现实中稀缺的失败案例和长尾场景放大。
但Sim-to-Real永远有鸿沟:仿真中的摩擦、接触、柔性物体、液体、线缆、布料,都很难完全逼近现实。未来的竞争点不是“有没有仿真”,而是“仿真是否能被真实数据持续校准”。
6. 安全与验证层:物理AI必须先可信,再智能
数字AI出错,多数时候是改答案;物理AI出错,可能砸坏设备、伤人、造成交通事故。因此安全验证需要前置:动作边界、力控限制、急停机制、冗余传感、可解释日志、仿真回放、监管合规,都将成为商业化门槛。
四、全球玩家:三类公司正在争夺入口
1. 基础设施公司:卖“训练物理AI的铲子”
NVIDIA是最典型代表。它不是只卖GPU,而是在搭建“AI工厂 + Omniverse数字孪生 + Isaac机器人平台 + Cosmos世界模型 + Jetson/Thor边缘算力”的全栈生态。Cosmos发布时,NVIDIA列出的首批采用方包括1X、Agility、Figure AI、Uber、Waabi、小鹏等,覆盖机器人、自动驾驶与交通仿真。
这类公司的商业模式最清晰:无论谁做机器人,只要训练、仿真、推理和部署需要算力与工具链,基础设施公司都受益。
2. 模型公司:争夺“机器人基础模型”
Google DeepMind、Physical Intelligence、Skild AI等公司代表了模型路线。它们的核心问题是:能否训练出跨机器人本体、跨任务、跨场景的通用策略模型?
RT-2、RT-X、Gemini Robotics和π0显示出同一方向:把互联网知识、多机器人数据和真实动作轨迹统一进模型。若这条路走通,机器人行业可能出现类似大模型行业的分层:底层通用模型由少数玩家训练,应用公司在垂直场景中微调、部署和集成。
3. 本体与场景公司:争夺“真实数据入口”
Tesla、Figure、Agility、Boston Dynamics、1X、宇树、智元、优必选等属于本体与场景路线。它们的优势不是模型论文,而是真机迭代、供应链、客户场景和真实数据。
这里有一个容易被忽视的判断:未来最有价值的机器人公司,未必是机械结构最炫的公司,而是能持续获得高质量真实交互数据的公司。 因为数据会反过来训练策略模型,策略模型再提升部署能力,部署越多,数据越多,形成飞轮。
五、中国机会:供应链强,但不能只做“身体”
中国在人形机器人和具身智能上有三类优势。
第一,制造供应链完整。电机、减速器、丝杠、结构件、电池、传感器、整机装配、成本控制和快速迭代,是中国硬科技产业长期积累的能力。
第二,场景丰富。3C、汽车、仓储物流、商超、物业、矿山、电力巡检、养老康复,都能提供真实部署环境。物理AI不是靠PPT训练出来的,而是靠场景中的失败、返修、异常和长尾数据训练出来的。
第三,政策推动。工信部2023年《人形机器人创新发展指导意见》提出,到2025年初步建立人形机器人创新体系,到2027年技术创新能力显著提升,形成安全可靠的产业链供应链体系,构建具有国际竞争力的产业生态。2026年前后,工信部和国资委又推动人形机器人与具身智能实景实训专项行动,说明政策重点正在从“研发样机”转向“场景验证和常态部署”。
但短板也同样明显:
- 高质量跨本体机器人数据集仍不足;
- 通用VLA/VLM基础模型与海外顶尖团队存在差距;
- 复杂接触、柔性物体、长程任务的可靠性仍低;
- 机器人操作系统、仿真工具链、开发者生态还没有形成事实标准;
- 许多企业容易陷入“发布会参数竞争”,而不是“客户现场可用性竞争”。
中国企业如果只做低成本本体,最终可能变成“机器人代工厂”;如果能把本体、场景数据、仿真平台和模型训练闭环打通,才有机会成为物理AI时代的平台型公司。
六、商业化路径:先从“脏、累、险、缺人”的场景开始
物理AI的落地顺序,大概率不是从家庭保姆开始,而是从ROI清晰、环境相对可控、人工替代成本高的场景开始。
第一阶段:工业与仓储物流
仓库搬运、分拣、码垛、上下料、巡检、简单装配,是最现实的第一波应用。Agility的Digit强调连接仓库中不同自动化孤岛,配合Arc平台接入现有仓储系统,说明商业化重点不是“像人”,而是“能接入已有流程并稳定创造价值”。
第二阶段:汽车、3C与柔性制造
汽车和3C工厂既有自动化基础,又有大量非标、柔性、换线任务。人形机器人不一定比机械臂更便宜,但它可能在“为人设计的空间”中更容易部署:不用大规模改造产线,就能执行搬运、检测、拧螺丝、取放料等任务。
第三阶段:商用服务与公共空间
酒店、商超、医院、园区、机场、物业巡检等场景,对交互能力要求更高,对安全和稳定性要求也更高。这里的机器人不只是执行动作,还要理解人类语言、避让人群、处理异常。
第四阶段:家庭
家庭是终极大市场,也是最难场景。家庭环境高度非结构化:物体种类多、空间变化大、任务模糊、安全容忍度低、支付意愿不稳定。Figure 03强调面向家庭重新设计安全、电池、无线充电、音频和手部系统,说明头部企业已经在为家庭做准备,但家庭规模化仍需要更长时间。
七、投资与产业判断:不要只看“人形”,要看三条飞轮
物理AI会带来很多热闹概念,但真正值得跟踪的是三条飞轮。
1. 数据飞轮
谁拥有真实场景、真实机器人、真实失败数据,谁就拥有模型改进的燃料。未来机器人行业的核心资产可能不是单台硬件毛利,而是“可复用的具身数据”。
2. 仿真飞轮
谁能把真实数据变成高保真仿真,再把仿真生成的数据用于模型训练,谁就能更快覆盖长尾场景。NVIDIA Cosmos、Omniverse、Isaac的组合,正是在把这个飞轮平台化。
3. 供应链飞轮
物理AI最终要落到成本、可靠性、维护和交付。电机、减速器、丝杠、传感器、控制器、边缘计算模块、热管理、电池、安全认证,都会决定产品能否从Demo进入规模部署。
对中国企业而言,短期机会在零部件、整机代工、场景集成和数据采集;中期机会在垂直行业解决方案;长期机会在具身基础模型、仿真工具链和机器人操作系统。
八、主要风险:物理AI的“ChatGPT时刻”不会简单复制
1. 泛化能力被高估
语言模型在互联网上学到的是符号规律;机器人面对的是接触动力学。把衣服叠好、把线缆插入接口、在拥挤厨房中拿杯子,都比生成一段文字复杂得多。很多演示视频展示的是成功样本,但商业客户买的是全天候稳定性。
2. 成本下降不等于ROI成立
即使机器人售价下降,企业还要考虑部署、维护、培训、停机、保险、备件、软件订阅和安全责任。真正的比较对象不是“机器人看起来多先进”,而是“它能否在24个月内回本”。
3. 安全监管会成为硬门槛
物理AI进入工厂、道路、医院和家庭后,监管不可避免。机器人伤人、自动驾驶事故、数据隐私、远程控制安全、模型不可解释,都会成为行业必须回答的问题。
4. 数据闭环可能导致强者恒强
如果真实部署数据成为模型改进的核心资源,先进入场景的企业会越跑越快。后来者如果只有硬件,没有数据和软件闭环,可能很快被边缘化。
九、结论:物理AI不是机器人热,而是AI产业边界外扩
生成式AI证明了“规模化模型 + 海量数据 + 强算力”可以重塑数字世界。物理AI要验证的是:同样的范式能否进入真实世界。
我的判断是:
- 物理AI不是短期概念,而是AI产业从信息生产走向物理生产的必经阶段。
- 人形机器人是最吸引眼球的载体,但不是唯一主线;自动驾驶、工业机器人、仓储物流、智能工厂同样是物理AI。
- 未来竞争不只是本体硬件,而是“模型—数据—仿真—场景—供应链”的系统战。
- 中国有供应链和场景优势,但必须补上基础模型、仿真工具链和数据标准,否则容易停留在硬件制造环节。
- 商业化会先从结构化、ROI明确的工业场景爆发,再逐步进入公共服务和家庭。
如果说ChatGPT让AI学会了“表达”,物理AI要让AI学会“承担后果”。这也是它更难、更慢、更昂贵,但最终更有产业价值的原因。
参考资料
- NVIDIA Glossary:What is Physical AI?
- NVIDIA Newsroom:NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development
- NVIDIA Cosmos:Physical AI with World Foundation Models
- Google DeepMind:Gemini Robotics brings AI into the physical world
- Google DeepMind:Genie 2: A large-scale foundation world model
- Google Research:RT-2: Vision-Language-Action Models
- Open X-Embodiment Collaboration:Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- Physical Intelligence:Our First Generalist Policy π0
- Figure AI:Introducing Figure 03
- Agility Robotics:Humanoid Solutions / Digit
- Unitree Robotics:H1 Humanoid Robot / G1 Humanoid Robot
- 智元机器人:AGIBOT 官方网站
- arXiv:A Survey on Vision-Language-Action Models for Embodied AI