一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

2025-04-14 发布 · 浏览25次 · 点赞0次 · 收藏0次

Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样本」迁移至真实机器人。

现在训练机器人,都不需要真实数据了?

刚刚,Figure提出了一种全新的基于RL的端到端网络。

只需要在纯模拟环境中进行训练,用几个小时生成模拟数据,就能让Figure 02像人类一样自然行走了!


该方法的亮点如下:

  • 在模拟环境中运用强化学习,让机器人不断试错,学会像人类一样走路。

  • 通过高保真物理模拟器,仅用几个小时,就模拟出多年的数据。

  • 将模拟中的域随机化与机器人上的高频扭矩反馈相结合,无需微调,就能把模拟环境中的策略应用于真实机器人。


更让人惊喜的是,一个神经网络策略就能控制一大批机器人!

通过一个高保真物理模拟器,Figure最新的机器人仅用几个小时,就能模拟出几年的数据。


为了把模拟环境的训练成果应用到真实机器人上,团队采用了两种办法。

一是在模拟训练时进行域随机化,让机器人接触不同的物理属性;二是在真实机器人上安装高频扭矩反馈装置。

这样一来,模拟环境中训练好的策略,无需任何微调,就可以「零样本」迁移到真实硬件上。


在强化学习中,控制器通过不断试错,根据奖励信号来调整自己的行为。

Figure在高保真模拟环境中训练RL控制器,运行数千个具有不同参数和场景的虚拟人形机器人。

这种多样化的训练,使训练出的策略能直接用在真实的Figure 02机器人上,走出稳健的人类步伐。

Figure基于RL的训练方法,大大缩短了开发时间,在现实世界中表现也很稳定。

强化学习训练

用强化学习方法,在GPU加速的物理模拟环境中,训练行走控制器。

这个模拟环境效率超高,短短几个小时就能收集到相当于数年的模拟训练数据。

在模拟器中,数千个Figure 02机器人并行训练,每个机器人的物理参数都不一样。

它们会遇到各种各样的情况,像不同的地形,执行器动力学变化,以及被绊倒、滑倒和推搡等。

这时,一个神经网络策略学习控制所有的机器人。


人形机器人有个很大的优势,它的硬件平台通用性很强,能执行类似人类的任务。

不过,RL训练出来的策略,有时不是最佳的,没办法让机器人走出人类走路的感觉,比如脚跟先着地、脚尖蹬地,手臂摆动和腿部动作的配合。

所以,在训练时,会奖励那些走路轨迹像人的机器人,把偏好融入学习中。

这些轨迹为策略允许生成的行走风格建立了先验条件。

除了走路轨迹像人,研究者还设置了其他奖励条件,比如优化机器人速度跟踪、功耗更低,更好地应对外界干扰和地形变化。

从模拟到现实的跨越

最后一步,是把模拟环境中训练好的策略应用到真实的机器人上。

模拟机器人只是高维机电系统的近似,在模拟环境中训练的策略只能保证在这些模拟机器人上有效,不一定能在真实机器人上正常工作。



为解决这个问题,在模拟训练时,采用域随机化技术,随机改变每个机器人的物理属性,让策略能适应各种不同的情况。

这有助于策略零样本泛化到真实机器人上,而无需任何额外的微调。

同时,在真实机器人上,用千赫兹速率扭矩反馈控制,来修正执行器模型的误差。

这样,即使机器人之间有些差异,如地面摩擦力不同,或受到外界推搡,这个策略都具有鲁棒性,能让Figure 02机器人像人一样行走。

可以看到,10个Figure 02机器人用得都是同一个RL神经网络。


说明现有的策略不用再做调整,就能推广到大批机器人,对未来的大规模商业应用是个好消息。

Fi‍gure Robotics


Figure Robotics是一家新兴的机器人公司,专注于开发通用人形机器人,旨在通过先进的人工智能扩展人类能力。

公司专注于构建像人类一样学习和推理的机器人。

Figure Robotics一开始与OpenAI合作,然而在内部人工智能(Helix)方面取得「重大突破」后,于2025年2月结束了合作,Figure Robotics转为自主开发Helix VLA模型。

Figure 02具有肉眼看起来最接近未来成熟形态的外形设计。

简直和威尔史密斯《I,Robot》中的机器人如出一辙,浑圆的面罩模型也避免了恐怖谷效应。


身高和体重也完美模拟一个成年男性。

当机器人能像人类一样学会自然行走,是否意味着也能像人一样学会其他「自然」动作?

更加重要的一个「隐喻」是,目前所有的人形机器人都是按照人类的形态打造的。

这更加方便了未来机器人与人类生活的融合。

除了自然行走,机器人还有很多「人类技能」需要学习,但他们已经在路上了。

参考资料:

https://x.com/Figure_robot/status/1904534311589785885

https://www.figure.ai/news/reinforcement-learning-walking

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。