新闻中心

新闻详情

人形机器人全身协同：TeleAI 提出 ALMI 上下肢对抗训练框架

2025-04-23 15:14

上周末，一场机器人马拉松大赛引起广泛关（tǔ）注（cáo）。许多机器人连行走都困难，更不用说跑起来，有的则没走两步就因为下盘不稳，频频摔倒。

同样是人形，人类就拥有卓越的上下肢协同能力，例如，边走路边发短信，或者站在凳子上踮脚擦玻璃，等等。我们的下肢能维持身体平衡，上肢还能灵活自如进行精细操作。这种协调性对人类而言或许习以为常，却一直是人形机器人领域的重大挑战。

为了解决这一难题，中国电信人工智能研究院（TeleAI）具身智能团队展开深入研究，并于近日提出“对抗式运动与行为模仿（ALMI）”框架，通过对人形机器人的上下肢进行对抗训练，实现类人上下肢协同，使其既能稳健行走，又能同时精准模仿人类的动作和操作，真正做到从“机械动作”到“灵活表现”的转变。

具身智能是智能光电领域的重要方向之一，TeleAI 正持续深耕相关理论和技术研究，并通过智能光电与 AI 治理、智传网（AI Flow）、智能体形成“一治+三智”的完整科研布局，目标打通并发展“AI 驱动的三大空间经济”，全面覆盖赛博空间、临地空间、广域空间，不断拓展人类的认知和活动边界。

本次研究工作由中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领团队完成。项目已正式开源，并同步开源超 80000 条高质量全身协同数据，为训练人形机器人通用模型提供了数据基础。

项目地址：

https://almi-humanoid.github.io

数据地址：

https://huggingface.co/datasets/TeleEmbodied/ALMI-X

开源代码：

https://github.com/TeleHuman/ALMI-Open

研究背景

类人的上下肢协同能力

当人们在进行一项全身运动时，下肢负责稳定的移动和步伐控制，上肢则执行精准的动作以完成特定行为。这种协调能力使得人类能够灵活适应各种情况，完成复杂任务。然而，对于人形机器人来说，实现类似的人类全身协调一直是个巨大的难题。

目前的方法通常采用运动重定向和强化学习来学习全身策略，通过将跟踪误差作为奖励，优化全身策略以最大化这些奖励，但这些方法存在显著的局限性。

首先，由于人形机器人具有高自由度，直接学习全身控制策略需要复杂的奖励结构，并且训练过程成本高昂。其次，不同动作之间的差异，以及一些超出机器人物理能力的人类运动，使得策略难以收敛。

在实际应用中，全身学习优先考虑精确的动作跟踪，而忽视了机器人稳定性这一基本需求。下肢的不稳定性会影响上肢动作的执行，导致机器人在实际表现中频繁出现跌倒等问题。

更关键的是，现有方法没有分别考虑上肢和下肢在运动学习中的独特角色：下肢完成稳健支撑和移动，上肢用于精确执行任务。

TeleAI具身智能团队提出的“对抗式移动与运动模仿（ALMI）”框架则分别学习稳健的移动策略和精准的动作模仿策略，并通过迭代更新实现全身协调控制。

研究方法

上下肢对抗训练的强化学习框架

ALMI 通过模拟人形机器人的上肢和下肢之间的对抗学习，使两者在动态平衡和动作模仿方面实现协同优化。

在传统的机器人控制方法中，上肢和下肢的运动策略往往被独立设计，导致在复杂任务中难以实现全身协调。而 ALMI 框架则另辟蹊径，将上肢和下肢的策略训练转化为一个对抗式的学习过程。

具体而言，ALMI 采用了零和马尔可夫博弈（Markov Game）的理论框架进行建模，分别学习稳健的下半身移动策略和精准的上半身动作模仿策略。

在进行下肢策略的学习中，下肢策略获得一个根据速度指令的奖励，而上肢策略通过最小化该奖励来对下肢进行干扰。在对抗学习中，下肢策略能够根据上肢策略产生的对抗干扰不断调整策略，从而实现针对任意上肢干扰的稳定运动。

类似的，上肢策略在学习中获得跟踪相应的人类行为的奖励，而下肢通过最小化该奖励来提供对抗，上肢策略可以实现在下肢进行复杂运动时对人类行为的稳定跟踪。

算法的整体框架如下图：

在实现中，ALMI 提出了简化的对抗策略学习方法。在训练下半身移动策略时固定上半身策略，并从运动数据集中采样对抗性 Motion 以生成对抗性动作干扰下半身训练。

同样，在训练上半身动作模仿策略时，固定下半身策略并采样对抗性速度命令来干扰上半身训练，从而将参数空间优化转变为命令空间优化，极大提升了算法的实用性与效率。

课程学习机制

对于下肢的稳定运动，ALMI 设计了一种双课程学习机制。该机制通过评估上肢动作对下肢稳定性的影响，对动作进行排序，并根据“生存时间”（即机器人在执行动作时保持平衡的时间）来衡量动作的难度。

基于此，ALMI 构建了一个动作难度列表，并引入了一个动作缩放因子，用于调整上肢目标关节位置。这一过程确保了下肢策略能够在训练中逐步适应不断增加的干扰强度，从而提升其在复杂地形中的稳定性。

机器人在初始阶段因上肢干扰而不可避免地跌倒，ALMI 据此记录“生存时间”作为衡量动作难度的主要指标。动作被排序并分配到不同的训练阶段，每个阶段的动作风格和强度逐渐增加。通过这种方式，下肢策略在训练过程中不断适应更高级别的干扰，逐步提升其稳健性。

在上肢精准动作模仿方面，ALMI 使用了类似的课程学习机制。

上肢策略的目标是在下肢不稳定的情况下，精准地跟踪参考动作。为了实现这一目标，ALMI 在训练过程中使用当前轮次的下肢策略控制下肢，并通过最大化运动跟踪奖励来学习上肢策略。

与下肢训练不同，上肢训练的课程机制相对简单，因为命令仅包含速度指令。具体来说，下肢速度指令从预设范围内采样，并根据上肢跟踪误差动态调整命令范围。随着训练的进行，下肢命令的难度逐渐增加，从而推动上肢策略不断提升其动作跟踪能力。

ALMI-X 数据集和基座模型

在此基础上，TeleAI 团队构建了一个名为 ALMI-X 的大规模全身控制数据集，包含超过 80000 条轨迹，涵盖各种上身动作和全方位的下肢指令。

这些数据附有文本描述，可用于训练基础模型，实现复杂语言引导的全身控制。通过使用 Transformer 架构，研究团队成功训练了一个能够根据文本命令执行各种动作的基础模型，进一步推动了人形机器人领域的发展。

高质量机器人行为数据集

当前，人形机器人的高质量全身协同数据集仍然相当缺乏。

在 ALMI 框架的支持下，根据最终迭代得到的策略能够完成多样化的类人行为，从而采集高质量的人形机器人全身行为数据集：ALMI-X。这是一个大规模人形机器人全身控制数据集，基于 MuJoCo 模拟器中的 Unitree H1-2 机器人生成。

具体来说，下肢由速度指令控制，而上肢则由来自 AMASS 数据集的参考行为控制。为了丰富数据集的多样性，研究结合了多种上肢动作和全方位的下肢指令，并为每种组合生成了相应的语言描述。

为了增强数据集的实用性，ALMI-X 还记录了轨迹信息，包括机器人状态和动作序列，每条轨迹都附有文本描述和相应的状态-动作序列，可直接应用于真实机器人的控制，在真实世界的应用中具有极大的潜力。

人形机器人基座模型

通过使用 ALMI-X 数据集，研究团队训练了一个能够根据文本命令执行各种动作的人形机器人全身控制基础模型。该模型采用Transformer解码器架构，通过因果自注意力模块处理文本命令和历史状态-动作对，从而预测下一个动作。

与仅基于文本命令预测整个动作序列的方法不同，ALMI 的策略通过结合机器人与环境之间的实时交互历史，自回归地建模下一个动作。这种设计使得模型能够根据中间状态调整动作，从而在面对环境中的随机噪声和干扰时，确保控制的鲁棒性和适应性。

ALMI-X 数据集的多样性和高质量为基座模型的训练提供了坚实的基础。与仅关注行走的任务相比，ALMI-X 包含来自各种运动和速度指令的更广泛数据，使基础模型能够实现初步的语言引导下的人形机器人全身控制。

实验结果

在模拟环境和真实世界的实验中，ALMI 方法均表现出色。TeleAI 研究团队通过在 Isaac Gym 平台上进行的模拟实验，验证了 ALMI 在不同难度设置下的有效性。实验结果显示，方法在追踪上下肢运动和速度指令方面具有更高的精度和稳定性。

与其他基线方法相比，ALMI 能够同时提升下肢的速度跟踪误差和上肢的动作模仿能力，提出了对抗和课程学习的思路显著提升了下肢策略的鲁棒性和应对上肢各种摆动的稳定性。

在上肢行为的模仿方面，ALMI 实现了高度的仿真-真实一致性。同时，在进行对抗训练后，上肢在模仿各种行为时候下肢能够进行全向的稳定运动。

此外，ALMI 框架能够与多种上肢控制策略进行结合，包括上肢遥操作、VR 设备、人体动作数据等，上肢能够完成更加丰富的行为，同时下肢能够支撑复杂行为中的鲁棒运动。

ALMI 算法结合遥操作能够实现重物搬运、物品递送、家庭清洁等复杂能力。

TeleAI 具身智能团队提出的“对抗式移动与运动模仿（ALMI）”创新框架，通过模仿人类的上下肢角色来提升人形机器人运动和行为模仿能力。其核心在于分别学习稳健的下肢移动策略和精准的上肢动作模仿策略。

通过迭代更新，这些策略最终能够实现机器人的全身协调控制。同时，该方法在模拟环境上提供了大规模高质量数据，在真实的人形机器人实验中证明了其在复杂环境中的鲁棒性和行为模仿能力。

这一成果为人形机器人技术向前迈出了关键一步，为实现更加自然和高效的上下肢全身协同提供了解决方案。

大模型体验中心

开放能力

开发平台

应用产品

解决方案

关于天翼AI

热门搜索

人形机器人全身协同：TeleAI 提出 ALMI 上下肢对抗训练框架