产品

NVIDIA Dynamo

基本信息

全称：NVIDIA Dynamo
类型：自建业务
首次提及：2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
提及次数：8 次（GTC 2025 演讲为核心，另有多张概念卡片引用）

定义

NVIDIA Dynamo 是 AI 工厂的操作系统——专门为大规模推理工作负载设计的软件栈，用于编排和优化整个数据中心级别的 token 生产。黄仁勋将其定位为"VMware 的接班人"：过去数据中心的操作系统调度企业 IT 应用，未来 AI 工厂的操作系统调度 agents 和推理任务。

Dynamo 解决的核心问题是推理时代带来的软件复杂性爆炸：reasoning 模型的一次问答会分成 prefill（读取上下文、深度思考）和 decode（逐 token 输出）两个阶段，前者吃 FLOPS，后者吃带宽。同一批 GPU 需要在两种模式间动态切换。再加上 tensor parallel、pipeline parallel、expert parallel、in-flight batching、disaggregated inference、KV cache 路由……这个调度问题的复杂度已经超出了人工管理的能力。

Dynamo 是开源的。

发展历程

2025 年 3 月（GTC 2025）：黄仁勋正式发布 NVIDIA Dynamo，将其命名为"AI 工厂的操作系统"。配合 Blackwell NVLink72 + FP4，Dynamo 让 Blackwell 在 reasoning workload 上达到 Hopper 的 40 倍性能。（2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin）

黄仁勋对它的评价

"Dynamo 本质上是 AI 工厂的操作系统。过去数据中心的操作系统是 VMware，它调度一堆企业 IT 应用。未来不是企业 IT 了，而是 agents；操作系统也不是 VMware 了，而是 Dynamo。而这个操作系统运行在上面的不是数据中心，是 AI 工厂。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin

"为什么叫 Dynamo？因为发电机是上一次工业革命的第一件工具。水进去、电出来。烧开水变蒸汽，然后出来的是一种看不见却极其有价值的东西。我们把这个软件命名为 Dynamo，因为我们正在开启下一场革命。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin

为什么叫 Dynamo

这个命名本身就是黄仁勋生成式 AI 工业革命叙事的浓缩。在他的类比里：

上一次工业革命的第一件工具 = 发电机（Dynamo）
上一次工业革命的产出 = 电（看不见却极其有价值）
这一次工业革命的第一件工具 = NVIDIA Dynamo
这一次工业革命的产出 = token（看不见却极其有价值）

这不是事后的修辞包装。黄仁勋在 2024-03 GTC 2024 - Blackwell B200 发布就已经铺垫了"AI 工厂生产 token，就像发电厂生产电"的类比，Dynamo 的命名把这个类比从修辞升级为产品名。

技术架构要点

Dynamo 管理的核心维度：

Prefill / Decode 分离：将思考阶段和输出阶段分配到不同的 GPU 组
KV Cache 路由：智能分配 key-value 缓存，避免重复计算
In-flight Batching：在推理进行中动态添加新请求
Disaggregated Inference：将推理的不同阶段分布到不同的硬件资源
多种并行策略编排：tensor parallel、pipeline parallel、expert parallel 的动态组合

这些技术的共同目标是最大化"token 生产函数"曲线下的面积——既要每用户的响应速度快（X 轴），又要整个工厂的总 token 产能高（Y 轴）。

体现的核心概念

AI 工厂 —— Dynamo 就是 AI 工厂的操作系统
推理时代 —— Dynamo 因 reasoning 模型的复杂性而生
Token 经济 —— Dynamo 优化的就是 token 的生产效率
生成式 AI 工业革命 —— 命名直接致敬工业革命
Extreme Co-Design —— Dynamo 是软件层的极端协同设计