一个月的活，一周干完：英伟达世界模型训练速度飙升 400%

英伟达世界动作模型 DreamZero 单次完整训练耗时 25 天、消耗 8 张 H100。无问芯穹与清华大学联合推出的大规模强化学习框架 RLinf，通过算子融合、并行策略重构与 I/O 管线优化三条路径的系统级重构，将训练吞吐提升近 4 倍——同等算力下，原本一个月的实验，一周内就能完成。

·2026年5月26日·1 min read

在具身智能领域，算力瓶颈一直是阻挡研究者快速迭代的最高那道墙。训练一个能在真实物理世界中稳定执行任务的机器人模型，不只需要好的算法，还需要一套能把 GPU 算力榨干到极致的工程体系。

DreamZero：世界动作模型登顶机器人基准，但训练代价高昂

英伟达近期发布的世界动作模型（WAM）DreamZero，在机器人基准测试 RoboArena 和 MolmoSpaces 上同时登顶，引发具身智能领域广泛关注。

与传统视觉-语言-行动（VLA）模型不同，DreamZero 以视频作为核心学习材料，采用"先理解世界如何变化，再决定如何行动"的范式——让模型从互联网海量视频中直接习得物理规律，而非依赖大量专属演示数据。

相比开源最优 VLA 模型 π0.5，DreamZero 在任务成功率上实现了超过 2 倍的提升，且在跨机型本体泛化性方面表现出显著优势。

但代价同样显著：参考官方训练代码，完整训练一次 DreamZero 需要 8 张 H100、连续运行 25 天。这一成本门槛，让大多数研究团队望而却步。

RLinf：系统级重构，不是参数微调

无问芯穹与清华大学等联合推出的 RLinf 框架，正面解决了这一瓶颈。

RLinf 对 DreamZero 训练管线进行的不是表面调参，而是从计算图、并行策略到数据读取的全链路系统级重构，最终实现相比官方基线脚本近 4 倍的训练吞吐提升。

三大优化维度具体如下：

维度一：算子融合 + CUDA Graph，消灭 GPU 的"隐形杀手"

Python 层面的算子调度开销，是限制 GPU 峰值性能最容易被忽视的瓶颈。RLinf 深度融合 torch.compile 和 CUDA Graph 两项技术：

Torch Compile 对 WanRMSNorm、adaLN-zero 等 Diffusion 架构中的低效算子进行深度内核融合
CUDA Graph 将计算图固化，消除 GPU 启动阶段的 CPU 调度延迟

这一项优化单独作用，5B 模型训练速度从 1.8s/step 降至 1.2s/step（提速 50%）；14B 模型从 9s/step 降至 6.7s/step（提速 34%）。

维度二：FSDP2 并行重构 + 灵活 Microbatch，释放被锁死的调优空间

官方代码的工程局限非常具体：默认采用 DeepSpeed ZeRO2 offload、image encoder 不拼 batch 逐样本执行，导致大量可调优空间被封死。

RLinf 迁移至 PyTorch 官方的 FSDP2 后端，彻底解决了 VAE 模块兼容性冲突与反向传播阶段的 CPU 开销问题。关键突破在于：

支持任意 Microbatch Size（mbs），解锁此前受限的配置空间
5B 模型在开启激活重计算（Recompute）后，mbs 从 2 提升至 32，吞吐从 1.7 samples/sec/gpu 跃升至 4.4 samples/sec/gpu，提升 158%
在前一项优化基础上（1.2 samples/sec/gpu），该维度进一步将吞吐提升 266%，达到 4.4 samples/sec/gpu

维度三：视频 I/O 管线重建，从数据端补上最后的缺口

随着计算密度提升，数据读取瓶颈浮出水面。DreamZero 的视频解码极耗 CPU 资源，传统 PyAV 方案已无法支撑高频吞吐需求。

RLinf 团队对主流视频处理库进行了系统性 Benchmark，最终选用 Torchcodec——在保持同梯队解码性能的同时，CPU 占用稳定性更优，可释放更多计算余量给训练主线程。

结果：单个视频解码时间缩短近 400ms。DreamZero 多视角训练场景（左视角、右视角、腕部视角）下，累计节省 1.2s/样本。

端到端实测结果

在 Droid 数据集（单样本含三路视角，33 帧 × 480 × 640）上的实测数据如下：

DreamZero-5B： 官方基线吞吐为 1.1 samples/sec/gpu，经 RLinf 全量优化后提升至 4.44 samples/sec/gpu，整体加速约 4 倍。

DreamZero-14B： 官方基线受限于 DeepSpeed ZeRO-offload 的架构瓶颈，计算与通信存在大量冗余开销。RLinf 迁移至 FSDP2 后端并完成系统级重构后，相比官方基线实现 2.7 倍加速；即便对比未经 RLinf 深度优化的 FSDP2 基础版本，吞吐也进一步提升了 35%。

收敛性验证同样通过：RLinf 版本在 LIBERO 数据集上训练至 18k Step，LIBERO Spatial Benchmark 成功率达到 96.68%，与官方基线收敛效果一致，且训练曲线更稳定（Step 粒度随机采样有效平滑了 Loss 波动）。

模型权重已开源，可通过 Hugging Face 直接获取。

这件事的真正意义，不只是"把训练加快了 4 倍"。

世界模型在具身智能领域的地位，类似于大语言模型之于 NLP——它是让机器人真正理解物理世界的基础范式，而不只是执行预设动作的程序。MIT Technology Review 和 IEEE Spectrum 均将世界模型定义为通往通用机器人智能的关键路径之一。

但世界模型的工程门槛极高。25 天、8 张 H100 的训练成本，意味着大多数研究团队每个季度只能完成两到三次完整实验。迭代速度被算力成本锁死，这本质上是一个让创新变慢的结构性问题。

RLinf 的价值，在于它把这道门槛从"顶级资源专属"拉向了"可复现、可迭代"的区间。这对整个具身智能研究生态的意义，远大于任何单次 benchmark 刷榜。

值得关注的更深层问题是：当训练效率工程化之后，世界模型的竞争门槛将从"谁有算力"转向"谁的数据质量更高、谁的迭代方法论更好"。Wired 和 The New York Times 已先后报道，Physical Intelligence、Figure AI 等公司正在大规模采集真实物理世界数据——下一轮具身智能的竞争，数据飞轮正在启动。

来源：新智元 / Nvidia Research / RLinf GitHub / IEEE Spectrum / MIT Technology Review

首个全自主 AI 勒索软件出现：JADEPUFFER 完成了人类黑客做的所有事

Sysdig 威胁研究团队于7月初记录了有史以来首个端到端由大语言模型驱动的勒索软件攻击。代号 JADEPUFFER 的 AI 智能体，通过利用 Langflow 开源框架的已知漏洞，全程无人操控地完成了侦察、凭证窃取、横向移动、权限提升、数据库加密等完整攻击链，执行超过 600 个攻击载荷，加密并销毁了受害者生产数据库的 1342 条配置记录。

阅读全文

Anthropic与三星大楼数字握手图，展示2纳米制程自研AI芯片——标注自定义AI加速器、下一代性能、2纳米制程节点及更高能效、更强性能核心参数

Anthropic 与三星洽谈首款自研 AI 芯片，瞄准 2 纳米制程

Anthropic 正与三星电子就研发首款自研 AI 芯片展开早期洽谈，目标锁定三星先进 2 纳米制程及封装设施。消息由 The Information 率先披露，TechCrunch 随后证实。目前谈判仍处于早期探索阶段，芯片的具体用途、性能规格和服务器集成方式尚未确定。这是 OpenAI 发布 Jalapeño 自研推理芯片一周后的直接回应，标志着顶级 AI 实验室集体向硬件独立迈进的战略转折正式落地。

阅读全文

90%的代码交给 AI，效率只提升 60%——字节 VP 揭穿了 AI 编程最大的幻觉

AI 编程工具可以大幅提高代码产量，却未必带来同等比例的交付效率。本文围绕字节披露的“90% AI 生成代码、60% 吞吐提升”现象，分析上下文工程、架构约束、治理与工作流集成为何才是 AI 代码真正走向生产价值的关键。

阅读全文

返回AI资讯

一个月的活，一周干完：英伟达世界模型训练速度飙升 400%

DreamZero：世界动作模型登顶机器人基准，但训练代价高昂

RLinf：系统级重构，不是参数微调

维度一：算子融合 + CUDA Graph，消灭 GPU 的"隐形杀手"

维度二：FSDP2 并行重构 + 灵活 Microbatch，释放被锁死的调优空间

维度三：视频 I/O 管线重建，从数据端补上最后的缺口

端到端实测结果

相关推荐

首个全自主 AI 勒索软件出现：JADEPUFFER 完成了人类黑客做的所有事

Anthropic 与三星洽谈首款自研 AI 芯片，瞄准 2 纳米制程

90%的代码交给 AI，效率只提升 60%——字节 VP 揭穿了 AI 编程最大的幻觉