打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
【导读】Atlas进厂打工技能再进化!波士顿动力联手丰田研究院,首次让人形机器人Atlas能够通过语言指令驱动,一次性处理从折叠配件到整理仓架的复杂作业。这种LBM(Large Behavior Models,大行为模型)方法让机器人具备跨任务泛化能力,迈出了工业化实践的一大步。
谁能想到,曾经主打「特技表演」的网红机器人,已经在厂里打工半年了。
那么,经历了这么时间的磨练, Atlas 在干活这块的能力,到底有没有进步呢?
就在刚刚,波士顿动力发布的最新Vlog,给出了答案。
在下面这个分拣场景中,Atlas需要把放在蓝色小箱子里的零件,转移到旁边的大箱子中。
只见它刚弯下膝盖,并用自己的两指抓手打开一侧的盖子,「讨厌」的人类就拿着曲棍球杆来捣乱了。
不过,Atlas对此非常淡定——一遍又一遍地把盖子掀开。
没多久,那个拿着曲棍球杆的人类又来了。
这次,他决定偷偷将箱子挪开,看看Atlas是不是会呆呆地「捡空气」。
Atlas内心OS:「就这?」,然后默默地把箱子搬了回来。
接下来,人类又来上难度了。
此前Atlas已经确认了箱子盖子已经打开,如果现在再给合上又会如何?
显然,这并不是一个编程好的固定动作,而是它通过实时的感知来确定自己需要做什么。
很轻松地,Atlas就把人类扣上的盖子给打开了。
最后,人类模拟了一下周围有意外掉落的零件的场景。
只见Atlas先是把箱子挪开,然后调整身体的位置,很轻松的就把零件捡了起来。
全新大行为模型来了!
上面这些所展示的,便是波士顿动力全新提出的大行为模型(LBM)。
在LBM的加持下,人形机器便可以充分发挥「长得像人」的优势:操控各种物体、协调全身来调整自己的姿态、适应所处环境、避开障碍物,并在遇到突发情况时也能保持平衡等等。
具体来说,构建策略的过程有四个基本步骤:
1. 通过在真实机器人硬件和模拟环境中进行遥操作,收集具身行为数据。
2. 对数据进行处理、标注和筛选,以便将其轻松整合到机器学习流水线中。
3. 使用涵盖所有任务的完整数据集,训练一个神经网络策略。
4. 使用一系列测试任务来评估该策略。
其中,第4步的评估结果将被用于判断还需要补充哪些数据,以及哪种网络架构或推理策略的性能更好。
接着,在模型的训练上,研究人员采用了扩散Transformer模型与流匹配损失函数相结合的方式。
这一策略能够将由图像、本体感觉和语言提示所构成的输入,映射为控制整个Atlas机器人的动作指令。其中,控制频率为30Hz。
长时程、端到端的操控
「Spot工坊」任务展示了协同运动(包括踏步、开阔步宽和下蹲)与灵巧操控(包括零件拾取、重新抓取、关节操控、放置和滑动)的能力。
下面这段一镜到底的端到端视频中,展示了一个单一的、由语言条件化的策略来执行全部任务序列。
该任务由三个子任务构成:
从手推车上抓取Spot机器狗的腿部零件,将其折叠,然后放置到架子上。
从手推车上抓取面板,然后拉开底层架子上的箱子,并将面板放入箱中。
当手推车被完全清空后,机器人会转向后方的蓝色大箱子,将其中的所有其他Spot零件清理出来,分批抓取并放入一旁的蓝色倾倒车中。
其中,每个子任务都是通过向该策略传递一个高层语义的语言提示词来触发的。
实际上,机器人在最开始的时候,并不能应对现实中的各种意外。
而LBM可以仅凭训练中观察到的经验,通过机器人的传感器有效评估外部环境状态,并据此做出反应。
于是,通过向机器人演示如何从这类干扰中恢复,并重新训练神经网络,便能快速部署具备反应能力的新策略,整个过程无需任何算法或工程上的改动。
其结果便是,今后再为机器人开发新的操控行为,就不需要高深的学位和多年的经验了!
其他操控能力
在Atlas MTS(操作测试台)上,仅使用一个语言条件化策略,就能完成从简单的抓取与放置,到更复杂的任务,如系绳、翻转吧台凳、展开并铺平桌布,以及操控一个重达22磅(约10公斤)的汽车轮胎。
由于绳索、布料和轮胎具有可变形的几何特性以及复杂的操控序列,使用传统的机器人编程技术来完成这些任务会极其困难。
但有了LBM,无论是堆叠刚性积木还是折叠T恤,训练过程都别无二致:只要你来演示,机器自会学习。
学习后策略性能的自适应调整
除此之外,LBM还有一个优势——可以在推理时加快其执行速度,而无需对训练过程进行任何更改。
具体来说,由于LBM会预测未来动作的轨迹以及执行这些动作的时间点,因此可以通过调整这一时间规划来控制执行速度。
下面这个视频,对比的便是1倍速(即数据采集时的演示速度)、2倍速和3倍速下的运行情况。
总的来说,在MTS和完整的Atlas平台上,加速个1.5倍至2倍,基本都不会对性能产生显著影响。
而这也表明,在某些情况下,机器人将能够超越人类远程操控的速度极限。
技术路径
平台能力:高自由度带来的极致灵活性
Atlas机器人本体拥有50个自由度(DoF, Degrees of Freedom),这意味着它在空间内的活动范围和动作灵巧度都非常突出。
相比之下,Atlas MTS(操作测试台)则配备了29个自由度,主要用来专攻各种复杂的纯操控任务。每只机械手上有7个自由度,这也让Atlas能灵活切换多种抓取方式——不管是强力一把抓,还是需要精细控制的捏取动作都不在话下。
感知系统方面,Atlas头部装有一对HDR立体相机,这不仅让操作员在遥操作时能对环境一览无余,也为策略模型提供了高质量的视觉输入,是实现复杂操控的关键基础。
遥操作:用高质量数据喂饱模型
要让机器人动得顺畅、灵巧,控制系统必须跟得上。这一块,团队下了大力气,专门为Atlas搭了一套遥操作系统。
底层用的还是波士顿动力自家成熟的MPC(Model Predictive Control,模型预测控制)框架,这套方案早就在跑酷、跳舞等场景里验证过,能确保机器人稳住身形、避免自撞的同时,还能灵活完成复杂操作——相当于把Atlas硬件的天花板又往上抬了一截。
实际操控时,操作员戴上VR头显,直接「进入」机器人的工作空间,看到的画面和策略模型拿到的数据是完全一致的。Atlas头部的摄像头拍下的实时画面,会被重新映射成立体视觉效果,操作员的空间感一下子拉满。
团队还专门开发了一套定制的VR软件,界面里能下各种操作指令,同时把机器人的状态、控制目标、各类传感器数据、触觉反馈等实时流推送给操作者,像AR、触觉手柄、HUD平视显示等交互细节也都没落下。
这样一来,人和机器的「感官」高度同步,机器人的各种能力就能被尽可能发挥出来,高质量的数据采集也就水到渠成。
最早的VR遥操作版本,其实就像一套全身跟踪设备——操作员只需要戴上头显、配合定位基站、手柄,再加一个胸部追踪器,就能远程控制静止站立的Atlas。
这里采用的是一对一映射,操作员的手怎么动,机器人的手也跟着一模一样地动,控制逻辑非常直观,特别适合需要双手配合的任务。
凭这套方案,操作员已经可以让Atlas完成一系列操作,比如蹲下捡地上的东西,或者身体伸展开去够高处的货架。
不过,第一代系统有个明显短板:它不支持操作员自由地移动脚步,亦即无法灵活控制Atlas的站位和行走动作,能实现的任务类型受到很大限制。
为了打破这个瓶颈,团队给Atlas的双脚也加上了追踪器,实现了手脚都能一对一映射。与此同时,遥操作控制也进一步升级:现在Atlas的站姿、重心支撑区、多边形变化和步态规划,都能和操作者完全同步。
这一套下来,不只是让Atlas能走能动,整个工作空间的利用率也大大提升——比如,要打开地上的蓝色箱子并从里面取东西,操作员可以让机器人张开双腿、膝盖下蹲,不会碰到箱体,还能把手伸进箱子里拿到物品。
此外,Atlas用的神经网络策略和遥操作其实共用同一个机器人控制接口。团队只需要在原有静态策略的基础上,扩展一下动作的表示方式,就能复用之前的模型架构,连迁移都变得很顺滑。
策略模型:跨平台大模型,懂图像、理解指令
Atlas用的策略模型,底层其实是丰田研究院提出的大行为模型(LBM),不过他们在此基础上又做了不少扩展,核心思路跟扩散策略那一套很像。
主模型是基于扩散Transformer架构打造的,规模高达4.5亿参数,优化目标采用了流匹配(flow-matching)机制。
这个策略模型用到的信息很丰富,既看本体感觉、也看环境图像,还能接收一句语言指令来明确任务目标。
图像数据以30Hz的频率不断输入,网络每次会利用一段历史观测,直接预测出一组长度为48的动作块——对应1.6秒的连续动作。
实际运行时,每轮策略推理会执行24帧动作(也就是0.8秒的内容,如果按1倍速来算)。
从输入输出来看,Atlas策略的观测空间涵盖了头部摄像头采集的图像和本体感觉信号,动作空间则包括左右手抓手的关节位置、脖子扭转、躯干姿态,以及双手和双脚的动作。
Atlas MTS这边,上半身硬件和Atlas一模一样,观测空间和动作空间设置也保持一致,只是去掉了下半身和躯干的控制部分。软硬件的高度统一,也方便团队训练跨平台通用的策略模型,两种机体的数据可以直接打通用起来。
仿真:高效开发的「秘密武器」
仿真对Atlas团队来说是不可或缺的核心工具。一方面,它让遥操作系统的开发迭代快得多,还能轻松写单元测试、集成测试,保障开发过程始终稳定、不被各种突发问题打断。
更重要的是,不管是策略训练还是评估,很多需要大量试错、重复验证的环节,仿真环境都能省下大量时间和硬件成本——毕竟真机测试既慢又贵,还难以完全复现每次实验的细节。
团队自研的仿真堆栈与实际硬件、机器人软件保持了极高的一致性,所以数据流水线、可视化工具、训练代码、VR软件和接口等各个环节都能在仿真和真机之间无缝切换,效率拉满。
仿真不仅用来做策略和系统架构的基准测试,还直接作为多任务、多机体大模型训练的重要数据源。靠着高质量、可控的仿真数据,硬件上部署的多机器人多任务策略才能真正跑起来。
参考资料:
https://www.youtube.com/watch?v=HYwekersccY&t=2s
https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。