SOP: 在真实世界中规模化部署通用机器人
通用机器人的学习正在从“人类静态示范”拓展到“真实世界自主交互”。
VLA 模型不再是“训练完成即冻结”的系统,而是可以在部署后持续提升的智能体。
现实世界经验,首次成为可扩展的训练资源。
要让通用机器人在真实世界中大规模运行,仅具备任务可行性是远远不够的。真正的挑战在于,在物理世界中工作的通用机器人必须能够在复杂多变的环境中保持高度的稳定与可靠,同时在处理截然不同的任务时依然具备卓越的泛化能力。同时,这些机器人不应在出厂时就固化了能力,而应在部署之后,能够迅速适应环境的变化,并持续从真实的物理世界经验中学习。
我们提出了 SOP (Scalable Online Post-training),一个旨在实现机器人集群在线更新视觉-语言-动作 (VLA) 模型的框架。通过将学习范式从离线转向分布式在线训练,SOP 建立了一种支持个体经验在群体间高效复用与快速迭代的机制。这一框架实现了在数小时内显著提升复杂任务的执行性能,为通用机器人的大规模真实世界部署奠定了技术基础。
通用机器人的基座模型与性能差距
过去几年,预训练的 VLA 模型已经为通用机器人提供了显著的泛化能力。通过互联网级别数据的预训练,VLA 模型在执行不同类型任务、操纵不同物体和适应不同本体上,都展现出了一定的通用能力。不过,预训练并不能高效地带来在特定任务上的高性能。为了解决具体任务上的性能问题,后训练成为了主要解决方法。在大语言模型 (LLM) 上,结合了强化学习方法的后训练方法已经获得了巨大的成功。近期,主流 LLM 在维持泛化性的基础上,在多种任务上可以达到甚至超过人类专家水平。
然而,这样的成功还没有出现在 VLA 的后训练上,这是因为物理世界中的后训练面临诸多挑战。首先是人类预先采集的高质量数据和机器人部署状态之间存在显著的分布偏移;其次,由于真机后训练尚未形成规模,机器人探索和学习的速度受到了极大限制。同时,单一的后训练任务也常常带来泛化能力的降低。我们看到了不少工作在解决这些问题上取得了进展,但是目前还没有可以同时解决这三个问题的后训练方法。
在真实世界中分布式的持续学习
据我们所知,SOP 首先在物理世界的后训练中整合了在线、分布式和多任务。我们的关键发现是:这三个部分并不是独立的,而是相辅相成的。在线机制缓解了分布偏移的问题,分布式架构带来了对状态空间更高效率的探索,多任务学习有效保留了泛化能力。结合了这些优势,SOP 让机器人在多任务上迅速提升了性能。SOP 改变的不止是某一项具体的训练技巧,而是系统地改变了通用机器人的学习模式。在这种范式下,机器人可以带着尚不完美的初始模型上线。部署不再是研发的终点,而是持续学习的新起点。随着分布式集群的规模增长,我们观察到了近乎线性的性能增长速度。
在 SOP 中,真实世界经验成为一种可持续、可扩展的训练资源。通用机器人不应当是一种静态的产品,而是一个在运行中持续进化的系统。经过 SOP 训练后,我们的机器人可以在目标任务上连续自主运行36小时,全程无需人工接管。
SOP: 一种可规模化的在线后训练方法
SOP 将 VLA 的后训练,从离线、单机、顺序转变为在线、集群、并行。形象地说,这是一个多机的“平行现实” → 集中的云端学习 → 模型即时回流的闭环。
多机器人并行执行。在多机器人并行执行的架构下,多台机器人共享同一个 VLA 策略,同时处理各种各样的任务与指令。这种方式大幅拓宽了真实世界中的状态-动作分布覆盖面,使得系统能够接触到更广泛的场景,突破了单机在线学习在数据覆盖范围上的局限。
云端集中在线更新。与此同时,通过云端集中在线更新,所有的运行轨迹、奖励信号以及人工纠正信息都会被实时流式上传。在云端 GPU 集群中,策略模型进行持续的在线更新,并在分钟级别内将优化后的新参数同步回所有机器人。这确保了学习过程始终基于最新的“当前策略”,从而维持了在线训练的稳定性和一致性。
在提升性能的同时保留泛化能力。SOP 在提升性能的同时,保留了机器人的通用能力。传统的单机在线训练往往会使模型退化为只擅长单一任务的“专家”,但 SOP 通过空间上的并行而非时间上的串行,让多任务学习在更广的分布中同时发生,从而确保 VLA 的通用性不会因针对性性能提升而受损。
SOP 的性能表现、扩展定律与预训练的关系
为了验证SOP的有效性,我们思考了三个问题:
1. SOP对于预训练VLA的性能究竟有多大的提升?跟之前的一些离线方案相比呢?
2. 分布式机器人队伍的数量规模扩展会如何影响性能?
3. 对于不同质量的预训练模型,SOP能否提供一致的性能增益?
首先,我们要确认SOP的有效性。SOP侧重系统层面的优化,因此我们选择了两种典型的算法来配合 SOP 进行公平比较,它们分别是 HG-DAgger 和 RECAP。从原始实现来说,HG-DAgger限于单机,而RECAP使用离线方法。首先,我们测试了基线模型。第二步,我们分别测试了基线模型经过这两种算法分别迭代后的效果。然后,我们将 HG-DAgger 和 RECAP 接入了 SOP,从而实现了两种在线方法(SOP w/ HG-DAgger 和 SOP w/ RECAP),并进行了同样的测试。实验结果说明,在各类测试场景下,结合 SOP 后性能均有提升。我们还发现,对于叠衣服和叠纸盒任务,SOP 提升过程中引入的一些恢复行为可以明显提升任务的吞吐量。
对于第二个问题,我们使用了三种机器人队伍数量(单机、双机、四机配置),在同样的数据传送总量的基础上,进行了比较。实验结果表明,在相同的总训练时间下,更多数量的机器人带来了更高的性能表现。在总训练时间为3小时的限制下,四机进行学习的最终成功率达到了92.5%,比单机高出12%。我们认为,多机采集可以有效阻止模型过拟合到单机的特定特征上。同时,SOP 还将硬件的扩展转化为了学习时长的大幅缩短。单机的条件下,性能提升到80%的耗时为174分钟,而四机仅用了72分钟,训练速度提升了2.4倍。
| 机器人数量 | 3小时后成功率 | 达到80%所需时间 | 加速比 |
|---|---|---|---|
| 1 台 | 80.5% | 173.6 分钟 | 1.0× |
| 2 台 | 88.7% | 126.5 分钟 | 1.4× |
| 4 台 | 92.5% | 71.7 分钟 | 2.4× |
最后,我们探究了 SOP 和预训练数据之间的关系。我们把总量为160小时的多任务预训练数据分为了三组:20小时,80小时和160小时,分别训练一组模型后再进行 SOP。我们发现,预训练的规模决定了基座模型和后训练提升的轨迹。虽然 SOP 对所有模型都有稳定的提升,但是模型最终的表现与预训练规模相关。这说明,部署后的在线学习更多是对模型已有知识的优化,而非取代大规模预训练的作用。同时,对比80小时和160小时实验效果,我们也可以明显注意到,在解决特定失败情况时,在轨策略经验带来了非常显著的边际效果。SOP 在三小时的在轨经验下就获得了约30%的性能提升,而80小时预训练数据只带来了4%的提升。这说明在预训练出现边际效应递减的情况下,SOP 显然是更好的弥合性能差异的方案。
在新的真实场景中使用 SOP 进行快速性能提升
开头,我们谈到了核心动机:在真实世界中规模化部署通用机器人。我们相信实践出真知,并将机器人队伍放到了预训练模型没有见到的真实新环境下执行任务,并使用 SOP 进行在线训练。当机器人被置于不同的环境时,即便是同样的任务,它们执行任务的成功率和吞吐量也会下降。在几个小时的学习之后,机器人性能显著提升,可以鲁棒地执行相对复杂的实际任务。在通往真实世界大规模部署通用机器人的征途中,这无疑是坚实的一步。
迈向大规模真实世界部署
SOP 改变的不仅是技术技巧,更是机器人系统的生命周期。我们相信,机器人不应当是“性能固定的标品”,而是"在真实世界中持续提升的生命体"。机器人的部署不是技术迭代的终点,而是更大规模学习的起点。如果说 VLA 让机器人第一次具备了通用理解与行动能力,那么 SOP 所做的,是让众多机器人的经验共同驱动智能的快速成长。训练不被锁死在过去,智能成长在当下。这是通用机器人走向大规模真实世界部署的关键一步。