让机器人后空翻,不难;让同一个机器人既能后空翻,又能打醉拳、跳霹雳舞、做托马斯全旋——这才是真正的挑战。北京通用人工智能研究院联合宇树科技、上海交大、中科大等机构,首次提出OmniXtreme框架,成功让一台机器人掌握数十种高动态极限动作,在真实世界部署中整体成功率高达91.08%,彻底打破了人形机器人运动控制的“保真度-可扩展性权衡”。
一、人形机器人的“偏科生”困境
从2024年“颤颤巍巍”的秧歌机器人,到2026年春晚《武BOT》中丝滑的后空翻、侧踢、耍双节棍、打醉拳,人形机器人的运动能力在过去两年经历了飞速迭代。然而,一个长期存在的根本性难题始终困扰着研究者:“保真度-可扩展性权衡”。
简单来说,当前的机器人就像一个“偏科生”——可以在某一单项上成为冠军,比如精准完成后空翻;但一旦试图让同一个机器人学会几十个风格迥异、动态复杂的动作,其学习效果就会大打折扣:控制器变得保守、平庸,在最具挑战性的动作上频频失败。
宇树科技创始人王兴兴曾在2025年世界机器人大会上坦言:“目前机器人运动控制领域存在RL Scaling Law问题。比如我有一个新的舞蹈要去训练,每次加入新动作,都要从头开始重新训练。” 他希望未来能够实现技能的持续积累与迁移学习,让机器人在已有能力基础上不断扩展新的技能。
二、科创亮点:两阶段训练框架破解“通用性壁垒”
2026年2月27日,北京通用人工智能研究院(BIGAI)、宇树科技、上海交通大学、中国科学技术大学等机构联合在arXiv预印本平台发表论文《OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control》,首次提出OmniXtreme框架,系统性地解决了高动态人形机器人控制的通用性难题。
研究团队分析指出,传统方法在高动态多动作控制上失败的根本原因,源于两个相互叠加的瓶颈:
仿真中的学习瓶颈:现有方法多采用简单的策略网络表示,面对异构动作目标时,其表达能力随数据多样性增加而迅速饱和;同时,用强化学习统一训练多任务会加剧梯度干扰,导致高动态行为上的保守平均或选择性失败。
物理可执行性瓶颈:即便仿真中表现优异,迁移到真实机器人仍面临挑战,因为现有建模忽略了扭矩-速度非线性、再生功率等关键驱动器特性,这些因素在高动态运动中会引发执行失稳。
亮点一:基于流的生成式预训练——让机器人“博览群书”
OmniXtreme的第一阶段采用基于流的生成控制策略(flow-based generative control policy),通过知识蒸馏将分散在不同“专家策略”中的高动态技能融合到一个统一的“基座策略”中。
研究团队首先整合了LAFAN1、AMASS、MimicKit等多个高质量动作数据集,并将其重定向至宇树G1人形机器人上。针对这些参考动作,团队利用PPO算法训练了一系列专家策略。随后,OmniXtreme采用基于数据集聚合(DAgger)的流匹配算法,将这些专家策略的行为统一融合到一个基于流匹配的生成式策略中。
这种方法的核心优势在于:通过生成式建模学习“速度场”,而非简单的动作映射,从而在推理时通过正向欧拉积分生成高精度的连续控制动作,有效规避了传统强化学习在多任务下的梯度干扰。
亮点二:驱动感知的残差后训练——让机器人“真刀真枪”
预训练得到的流匹配策略虽然在仿真中表现出了惊人的跟踪精度,但现实世界中的电机非线性特性往往会导致高动态表现大打折扣。为了实现平滑的“仿真到现实”迁移,团队冻结了预训练的基础策略,并在其之上训练了一个轻量级的MLP残差策略。
为了让残差策略真正理解物理世界的残酷,团队在训练环境中引入了三个层面的深度建模:
激进的域随机化:将初始姿态噪声、外力干扰幅度、角速度等参数范围大幅提升,同时将终止阈值放宽1.5倍,给予残差策略充足的探索空间。
功率安全驱动正则化:创新性地引入针对机械功率的惩罚机制,重点施加于膝关节,防止高动态动作中触发硬件过流保护或热应力宕机。
驱动感知的扭矩与速度约束:将真实的电机运行包络线直接集成到仿真器中,同时通过非线性摩擦项对执行器级别的内部损耗进行精确建模。
亮点三:性能突破——24种动作整体成功率91.08%
在真实的宇树G1机器人上,OmniXtreme让单一策略完成了24种高动态运动,157次试验的整体成功率高达91.08%。其中:
| 动作类别 | 成功率 |
|---|---|
| 后空翻等 | 96.36% |
| 武术类 | 93.33% |
| 霹雳舞类 | 86.36% |
在仿真环境中,OmniXtreme与传统方法进行了直接对比。面对团队自建的XtremeMotion极限运动数据集,传统方法的跟踪误差显著增加,而OmniXtreme依旧维持了极低的运动学误差和极高的成功率。
亮点四:压力测试验证——真正打破“保真度-可扩展性”权衡
为了验证系统是否真正打破了泛化壁垒,团队设计了渐进式的压力测试。他们将训练动作集从10个逐步扩展到20个,最终扩展到50个,并使用固定的前10个动作进行统一评估。
实验结果揭示了显著差异:随着动作多样性的增加,传统从头训练的强化学习基线模型出现了严重性能衰退,成功率从100%暴跌至83.3%,最终滑落至73.9%。相比之下,OmniXtreme展现出惊人韧性,在50个动作的庞大训练集下,对核心动作的跟踪成功率依然坚挺在93.3% 。
亮点五:模型规模的Scaling Law验证
在人工智能的发展历程中,增加模型参数量往往能带来性能飞跃,但这一规律在传统运动控制领域似乎失效了。团队对比了不同参数规模(20M、50M、70M)的模型表现。
图表数据显示,传统的MLP策略在扩大参数量后很快就陷入了性能饱和,跟踪精度提升极其有限。与之形成鲜明对比的是,基于流匹配的生成式策略完美契合了Scaling Law——随着参数量向70M迈进,OmniXtreme的跟踪精度与鲁棒性呈现出显著的线性增长。
亮点六:端到端推理延迟仅10毫秒
在硬件部署方面,OmniXtreme展现了极高的工程完成度。整个推理管线(包括基于正向运动学的状态估计、流匹配基础策略以及残差策略)均使用TensorRT进行了深度优化。在宇树G1人形机器人的机载NVIDIA Jetson Orin NX平台上,系统实现了约10毫秒的端到端推理延迟,完美支持50Hz的高频闭环控制。
三、技术内涵:从“模仿学习”到“极限运动”的两阶段进化
OmniXtreme的整体框架包含三个环环相扣的阶段:
预训练阶段:通过基于DAgger的流匹配方法训练出一个统一的基策略,从多个专注于单一运动的专家策略中聚合多样化的运动先验。
后训练阶段:预训练的基策略被冻结,一个轻量级的残差策略在严格的电机约束、激进的领域随机化以及功率安全正则化下进行优化,弥合仿真环境与真实物理世界之间的动态差距。
机载部署阶段:整个推理流程经过优化,能够实时且完全在机器人的机载计算机上执行。
北京通用人工智能研究院具身机器人中心主任黄思远在社交媒体上透露:“我们花了一整年时间深入研究通用跟踪和极端物理行为之间的障碍。在测试了数十台G1后,最终找到了学习和物理执行能力方面的瓶颈。”
四、应用前景:从“极限运动”到“真实场景”
1. 为复杂场景应用奠定基础
很多人认为后空翻、霹雳舞等动作似乎与实用场景无关。对此,通研院研究员贾宝雄给出了深刻解释:“从科研角度来看,如果一个机器人能完成这些极限动作,通常也能处理人类能做的各种工作场景。这相当于先‘强身健体’——如果机器人能掌握人类极限运动的控制能力,那么在工业、服务等场景中执行任务反而会更容易。”
2. 工业制造与巡检
目前,相关技术已在电网巡检、汽车制造等场景中进行测试。OmniXtreme框架所实现的高动态平衡能力和抗干扰能力,为机器人在复杂工业环境中稳定作业提供了基础。
3. 开源生态推动行业发展
目前,该研究的相关论文、模型检查点及代码已正式开源。研究团队还透露,未来将陆续公开包括流匹配基础策略训练与推理代码、剩余后训练与推理代码,以及C++真实部署代码等在内的更多资源。这意味着全球的研究者和开发者都可以基于OmniXtreme框架,训练自己的人形机器人学会各种高动态运动技能,大大加速人形机器人运动控制领域的发展。
五、产业意义:从“单一技能”到“通用能力”的范式跃迁
这项研究的深层价值在于重新定义了人形机器人运动控制的能力边界。过去,人形机器人要么“专精一项”,要么“样样稀松”。OmniXtreme首次证明:高保真度与大规模动作库可以兼得。
正如论文所言:“OmniXtreme通过生成式预训练与驱动感知后训练的解耦设计,让单一策略既能规模化学习多样化技能,又能稳健部署于物理硬件,有效突破了传统高动态人形机器人控制中的保真度-可扩展性瓶颈。”
当人形机器人从“技能复现”走向“通用能力”,距离真正进入工业、服务和家庭场景,也许只差最后一次“突破”。
来源:北京通用人工智能研究院(BIGAI)、宇树科技、上海交通大学、中国科学技术大学;作者:第一作者——王云申(通研院-上海交大联培)、朱绍航(通研院-中科大联培);通讯作者——贾宝雄、黄思远(北京通用人工智能研究院);署名作者包括宇树科技创始人王兴兴;题目:OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control;发表于:arXiv预印本(2026年2月27日)。












