产品

NVIDIA Dynamo

基本信息

定义

NVIDIA Dynamo 是 AI 工厂 的操作系统——专门为大规模推理工作负载设计的软件栈,用于编排和优化整个数据中心级别的 token 生产。黄仁勋将其定位为"VMware 的接班人":过去数据中心的操作系统调度企业 IT 应用,未来 AI 工厂的操作系统调度 agents 和推理任务。

Dynamo 解决的核心问题是 推理时代 带来的软件复杂性爆炸:reasoning 模型的一次问答会分成 prefill(读取上下文、深度思考)和 decode(逐 token 输出)两个阶段,前者吃 FLOPS,后者吃带宽。同一批 GPU 需要在两种模式间动态切换。再加上 tensor parallel、pipeline parallel、expert parallel、in-flight batching、disaggregated inference、KV cache 路由……这个调度问题的复杂度已经超出了人工管理的能力。

Dynamo 是开源的。

发展历程

黄仁勋对它的评价

"Dynamo 本质上是 AI 工厂的操作系统。过去数据中心的操作系统是 VMware,它调度一堆企业 IT 应用。未来不是企业 IT 了,而是 agents;操作系统也不是 VMware 了,而是 Dynamo。而这个操作系统运行在上面的不是数据中心,是 AI 工厂。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin

"为什么叫 Dynamo?因为发电机是上一次工业革命的第一件工具。水进去、电出来。烧开水变蒸汽,然后出来的是一种看不见却极其有价值的东西。我们把这个软件命名为 Dynamo,因为我们正在开启下一场革命。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin

为什么叫 Dynamo

这个命名本身就是黄仁勋 生成式 AI 工业革命 叙事的浓缩。在他的类比里:

这不是事后的修辞包装。黄仁勋在 2024-03 GTC 2024 - Blackwell B200 发布 就已经铺垫了"AI 工厂生产 token,就像发电厂生产电"的类比,Dynamo 的命名把这个类比从修辞升级为产品名。

技术架构要点

Dynamo 管理的核心维度:

  1. Prefill / Decode 分离:将思考阶段和输出阶段分配到不同的 GPU 组
  2. KV Cache 路由:智能分配 key-value 缓存,避免重复计算
  3. In-flight Batching:在推理进行中动态添加新请求
  4. Disaggregated Inference:将推理的不同阶段分布到不同的硬件资源
  5. 多种并行策略编排:tensor parallel、pipeline parallel、expert parallel 的动态组合

这些技术的共同目标是最大化"token 生产函数"曲线下的面积——既要每用户的响应速度快(X 轴),又要整个工厂的总 token 产能高(Y 轴)。

体现的核心概念

相关产品