NVIDIA Dynamo
基本信息
- 全称:NVIDIA Dynamo
- 类型:自建业务
- 首次提及:2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
- 提及次数:8 次(GTC 2025 演讲为核心,另有多张概念卡片引用)
定义
NVIDIA Dynamo 是 AI 工厂 的操作系统——专门为大规模推理工作负载设计的软件栈,用于编排和优化整个数据中心级别的 token 生产。黄仁勋将其定位为"VMware 的接班人":过去数据中心的操作系统调度企业 IT 应用,未来 AI 工厂的操作系统调度 agents 和推理任务。
Dynamo 解决的核心问题是 推理时代 带来的软件复杂性爆炸:reasoning 模型的一次问答会分成 prefill(读取上下文、深度思考)和 decode(逐 token 输出)两个阶段,前者吃 FLOPS,后者吃带宽。同一批 GPU 需要在两种模式间动态切换。再加上 tensor parallel、pipeline parallel、expert parallel、in-flight batching、disaggregated inference、KV cache 路由……这个调度问题的复杂度已经超出了人工管理的能力。
Dynamo 是开源的。
发展历程
- 2025 年 3 月(GTC 2025):黄仁勋正式发布 NVIDIA Dynamo,将其命名为"AI 工厂的操作系统"。配合 Blackwell NVLink72 + FP4,Dynamo 让 Blackwell 在 reasoning workload 上达到 Hopper 的 40 倍性能。(2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin)
黄仁勋对它的评价
"Dynamo 本质上是 AI 工厂的操作系统。过去数据中心的操作系统是 VMware,它调度一堆企业 IT 应用。未来不是企业 IT 了,而是 agents;操作系统也不是 VMware 了,而是 Dynamo。而这个操作系统运行在上面的不是数据中心,是 AI 工厂。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin"为什么叫 Dynamo?因为发电机是上一次工业革命的第一件工具。水进去、电出来。烧开水变蒸汽,然后出来的是一种看不见却极其有价值的东西。我们把这个软件命名为 Dynamo,因为我们正在开启下一场革命。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
为什么叫 Dynamo
这个命名本身就是黄仁勋 生成式 AI 工业革命 叙事的浓缩。在他的类比里:
- 上一次工业革命的第一件工具 = 发电机(Dynamo)
- 上一次工业革命的产出 = 电(看不见却极其有价值)
- 这一次工业革命的第一件工具 = NVIDIA Dynamo
- 这一次工业革命的产出 = token(看不见却极其有价值)
这不是事后的修辞包装。黄仁勋在 2024-03 GTC 2024 - Blackwell B200 发布 就已经铺垫了"AI 工厂生产 token,就像发电厂生产电"的类比,Dynamo 的命名把这个类比从修辞升级为产品名。
技术架构要点
Dynamo 管理的核心维度:
- Prefill / Decode 分离:将思考阶段和输出阶段分配到不同的 GPU 组
- KV Cache 路由:智能分配 key-value 缓存,避免重复计算
- In-flight Batching:在推理进行中动态添加新请求
- Disaggregated Inference:将推理的不同阶段分布到不同的硬件资源
- 多种并行策略编排:tensor parallel、pipeline parallel、expert parallel 的动态组合
这些技术的共同目标是最大化"token 生产函数"曲线下的面积——既要每用户的响应速度快(X 轴),又要整个工厂的总 token 产能高(Y 轴)。
体现的核心概念
- AI 工厂 —— Dynamo 就是 AI 工厂的操作系统
- 推理时代 —— Dynamo 因 reasoning 模型的复杂性而生
- Token 经济 —— Dynamo 优化的就是 token 的生产效率
- 生成式 AI 工业革命 —— 命名直接致敬工业革命
- Extreme Co-Design —— Dynamo 是软件层的极端协同设计