ZenAI
返回AI资讯

一个月的活,一周干完:英伟达世界模型训练速度飙升 400%

英伟达世界动作模型 DreamZero 单次完整训练耗时 25 天、消耗 8 张 H100。无问芯穹与清华大学联合推出的大规模强化学习框架 RLinf,通过算子融合、并行策略重构与 I/O 管线优化三条路径的系统级重构,将训练吞吐提升近 4 倍——同等算力下,原本一个月的实验,一周内就能完成。

·2026年5月26日·1 min read

在具身智能领域,算力瓶颈一直是阻挡研究者快速迭代的最高那道墙。训练一个能在真实物理世界中稳定执行任务的机器人模型,不只需要好的算法,还需要一套能把 GPU 算力榨干到极致的工程体系。

DreamZero:世界动作模型登顶机器人基准,但训练代价高昂

英伟达近期发布的世界动作模型(WAM)DreamZero,在机器人基准测试 RoboArena 和 MolmoSpaces 上同时登顶,引发具身智能领域广泛关注。

与传统视觉-语言-行动(VLA)模型不同,DreamZero 以视频作为核心学习材料,采用"先理解世界如何变化,再决定如何行动"的范式——让模型从互联网海量视频中直接习得物理规律,而非依赖大量专属演示数据。

相比开源最优 VLA 模型 π0.5,DreamZero 在任务成功率上实现了超过 2 倍的提升,且在跨机型本体泛化性方面表现出显著优势。

但代价同样显著:参考官方训练代码,完整训练一次 DreamZero 需要 8 张 H100、连续运行 25 天。这一成本门槛,让大多数研究团队望而却步。

RLinf:系统级重构,不是参数微调

无问芯穹与清华大学等联合推出的 RLinf 框架,正面解决了这一瓶颈。

RLinf 对 DreamZero 训练管线进行的不是表面调参,而是从计算图、并行策略到数据读取的全链路系统级重构,最终实现相比官方基线脚本近 4 倍的训练吞吐提升

三大优化维度具体如下:

维度一:算子融合 + CUDA Graph,消灭 GPU 的"隐形杀手"

Python 层面的算子调度开销,是限制 GPU 峰值性能最容易被忽视的瓶颈。RLinf 深度融合 torch.compile 和 CUDA Graph 两项技术:

  • Torch Compile 对 WanRMSNorm、adaLN-zero 等 Diffusion 架构中的低效算子进行深度内核融合
  • CUDA Graph 将计算图固化,消除 GPU 启动阶段的 CPU 调度延迟

这一项优化单独作用,5B 模型训练速度从 1.8s/step 降至 1.2s/step(提速 50%);14B 模型从 9s/step 降至 6.7s/step(提速 34%)。

维度二:FSDP2 并行重构 + 灵活 Microbatch,释放被锁死的调优空间

官方代码的工程局限非常具体:默认采用 DeepSpeed ZeRO2 offload、image encoder 不拼 batch 逐样本执行,导致大量可调优空间被封死。

RLinf 迁移至 PyTorch 官方的 FSDP2 后端,彻底解决了 VAE 模块兼容性冲突与反向传播阶段的 CPU 开销问题。关键突破在于:

  • 支持任意 Microbatch Size(mbs),解锁此前受限的配置空间
  • 5B 模型在开启激活重计算(Recompute)后,mbs 从 2 提升至 32,吞吐从 1.7 samples/sec/gpu 跃升至 4.4 samples/sec/gpu,提升 158%
  • 在前一项优化基础上(1.2 samples/sec/gpu),该维度进一步将吞吐提升 266%,达到 4.4 samples/sec/gpu

维度三:视频 I/O 管线重建,从数据端补上最后的缺口

随着计算密度提升,数据读取瓶颈浮出水面。DreamZero 的视频解码极耗 CPU 资源,传统 PyAV 方案已无法支撑高频吞吐需求。

RLinf 团队对主流视频处理库进行了系统性 Benchmark,最终选用 Torchcodec——在保持同梯队解码性能的同时,CPU 占用稳定性更优,可释放更多计算余量给训练主线程。

结果:单个视频解码时间缩短近 400ms。DreamZero 多视角训练场景(左视角、右视角、腕部视角)下,累计节省 1.2s/样本

端到端实测结果

在 Droid 数据集(单样本含三路视角,33 帧 × 480 × 640)上的实测数据如下:

DreamZero-5B: 官方基线吞吐为 1.1 samples/sec/gpu,经 RLinf 全量优化后提升至 4.44 samples/sec/gpu,整体加速约 4 倍

DreamZero-14B: 官方基线受限于 DeepSpeed ZeRO-offload 的架构瓶颈,计算与通信存在大量冗余开销。RLinf 迁移至 FSDP2 后端并完成系统级重构后,相比官方基线实现 2.7 倍加速;即便对比未经 RLinf 深度优化的 FSDP2 基础版本,吞吐也进一步提升了 35%。

收敛性验证同样通过:RLinf 版本在 LIBERO 数据集上训练至 18k Step,LIBERO Spatial Benchmark 成功率达到 96.68%,与官方基线收敛效果一致,且训练曲线更稳定(Step 粒度随机采样有效平滑了 Loss 波动)。

模型权重已开源,可通过 Hugging Face 直接获取。

这件事的真正意义,不只是"把训练加快了 4 倍"。

世界模型在具身智能领域的地位,类似于大语言模型之于 NLP——它是让机器人真正理解物理世界的基础范式,而不只是执行预设动作的程序。MIT Technology ReviewIEEE Spectrum 均将世界模型定义为通往通用机器人智能的关键路径之一。

但世界模型的工程门槛极高。25 天、8 张 H100 的训练成本,意味着大多数研究团队每个季度只能完成两到三次完整实验。迭代速度被算力成本锁死,这本质上是一个让创新变慢的结构性问题。

RLinf 的价值,在于它把这道门槛从"顶级资源专属"拉向了"可复现、可迭代"的区间。这对整个具身智能研究生态的意义,远大于任何单次 benchmark 刷榜。

值得关注的更深层问题是:当训练效率工程化之后,世界模型的竞争门槛将从"谁有算力"转向"谁的数据质量更高、谁的迭代方法论更好"。WiredThe New York Times 已先后报道,Physical Intelligence、Figure AI 等公司正在大规模采集真实物理世界数据——下一轮具身智能的竞争,数据飞轮正在启动。


来源:新智元 / Nvidia Research / RLinf GitHub / IEEE Spectrum / MIT Technology Review

英伟达世界模型训练速度飙升400% 一个月的活一周干完 | ZenAI AI资讯 | ZenAI