NVLink
基本信息
- 全称:NVIDIA NVLink(高带宽 GPU 互联协议;NVLink Switch / NVLink chip-to-chip / NVL72 / NVL144 / NVL576)
- 类型:自建业务(互联协议 + 交换芯片)
- 首次提及:2021-04 GTC 2021 春 - AI Factory 概念
- 提及次数:18 篇素材中 12 篇明确出现
一句话定位
NVLink 是 NVIDIA 把"很多颗 GPU 当成一颗超大 GPU 用"的灵魂技术——它是 Scale Up 与 Scale Out 里 scale up 的核心,也是黄仁勋反复强调的"在 scale out 之前必须先 scale up"那句话的物理实现。从 NVLink 把两颗 GPU 连起来,到 NVLink Switch 让 72/144/576 颗 GPU 在整机柜里满带宽互通——NVLink 是 Blackwell 与 Vera Rubin 时代 GB200 NVL72 这种"机柜即芯片"产品形态成立的前提。
发展历程
- 2014 年前后:NVLink 1.0 首次出现,作为 PCIe 之外的 GPU-GPU 高带宽互联。
- 2021 年 4 月(GTC 2021 春):黄仁勋第一次完整解释 NVLink 的不可替代性。"CPU 内存比 GPU 内存大 3 倍,但慢 40 倍。我们希望能把整个节点的 1320 GB 内存都用来训练 AI 模型……解决方案是四通道直连 CPU——但 PCIe 变成新的瓶颈。我们当然可以用 NVLink——它够快——但没有一颗 x86 CPU 有 NVLink,更不用说四条。" 这成了 Grace CPU 项目存在的根本理由。(2021-04 GTC 2021 春 - AI Factory 概念)
- 2022 年 3 月(GTC 2022):NVIDIA 做了一个意义极大的开放——对外开放 NVLink IP:"NVLink 为客户打开了一个新世界——可以构建半定制的芯片和系统,充分利用 NVIDIA 的平台和生态。" 这是 NVIDIA 第一次把它最宝贵的互联协议变成可授权接口,为后面的 Grace Hopper、Grace Blackwell 的"超级芯片"埋下伏笔。"未来的所有 NVIDIA 芯片——CPU、GPU、DPU、SoC——都会用新一代 NVLink 互联。"(2022-03 GTC 2022 - Hopper H100 与 AI Factories)
- 2023 年 3 月(GTC 2023):H100 NVL 发布——一对 Hopper H100 通过 NVLink 连成一对,专门做 GPT 推理。"一台标配 4 对 H100 NVL 的服务器,在做 GPT-3 推理时,速度可达 HGX A100 的 10 倍。"(2023-03 GTC 2023 - AI 的 iPhone 时刻)
- 2024 年 3 月(GTC 2024):第五代 NVLink + NVLink Switch 发布。
- 第五代 NVLink:双向 1.8 TB/s
- NVLink Switch:500 亿晶体管的连接器("差不多跟 Hopper 自己一样大"),让每颗 GPU 都能以满带宽同时和每颗其他 GPU 通信
- 直接驱动铜线:"这颗芯片的 SerDes 就是一个非凡的发明,让我们可以直接走铜线"
- 成果:GB200 NVL72 整机柜——5000 根 NVLink 线,共 2 英里长;如果改用光学 transceivers 单是 transceiver 就要烧掉 2 万瓦,"NVLink Switch 省掉了这 20 千瓦"。(2024-03 GTC 2024 - Blackwell B200 发布)
- 2025 年 3 月(GTC 2025):黄仁勋讲清楚为什么要 disaggregate NVLink Switch 到独立托盘。"分布式计算的本质是让很多台机器一起解决一个很大的问题,但没有什么能替代 scale up——在你 scale out 之前,你必须先 scale up。" 同时官宣 Vera Rubin 用 NVLink6、Rubin Ultra 上 NVLink576。Hopper → Blackwell 的最大跳跃就是"NVLink 8 → NVLink 72"。(2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin)
- 2025 Q4 财报(FY25 Q4):"真正难的是从 Hopper 到 Blackwell 那一跳——我们从 NVLink 8 跳到了 NVLink 72——机架、架构、硬件、供电全都要重做。"(2025-Q4 NVIDIA FY25 财报 - Blackwell ramp)
黄仁勋对 NVLink 的评价
"NVLink 为客户打开了一个新世界——可以构建半定制的芯片和系统,充分利用 NVIDIA 的平台和生态。"
——2022-03 GTC 2022 - Hopper H100 与 AI Factories"We needed a bigger GPU. So we built another chip. 50 billion transistors, almost the size of Hopper itself. This chip is called the NVLink Switch—it allows every GPU to talk to every other GPU at full bandwidth simultaneously. This sounds incredible, this is almost unreasonable. But if you can do it, and if you can do it cheaply, then all GPUs are connected together as one giant GPU."
——2024-03 GTC 2024 - Blackwell B200 发布"分布式计算的本质是让很多台机器一起解决一个很大的问题,但没有什么能替代 scale up——在你 scale out 之前,你必须先 scale up。两者都重要,但顺序不能错。如果只靠 scale out,深度学习根本不会发生。所以我们必须先 scale up。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin"我们真正想造的是这颗芯片——130 万亿晶体管,其中 20 万亿用于计算。但没有哪条 reticle 极限、哪个工艺节点能做出这颗芯片。所以我们把它 disaggregate 成 Grace Blackwell NVLink72 机柜。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
体现的核心概念
- Scale Up 与 Scale Out —— NVLink 就是 scale up 的实现,InfiniBand / Spectrum-X 才是 scale out
- 数据中心即计算机 —— NVLink 让"机柜 = 计算机"成立
- Extreme Co-Design —— NVLink Switch 是机箱、芯片、协议、电源、冷却同时设计的产物
- 加速计算 —— "加速计算 比通用计算快一大截"的最终一步必须靠 NVLink 把多颗芯片合体
关键数据
| 年份 | 数据点 | 出处 |
|---|---|---|
| 2021 | "没有一颗 x86 CPU 有 NVLink"——Grace CPU 存在的理由 | 2021-04 GTC 2021 春 - AI Factory 概念 |
| 2022 | NVLink chip-to-chip 900 GB/s(Grace CPU Superchip) | 2022-03 GTC 2022 - Hopper H100 与 AI Factories |
| 2022 | NVIDIA 开放 NVLink IP 给客户做定制超级芯片 | 2022-03 GTC 2022 - Hopper H100 与 AI Factories |
| 2023 | Grace Hopper (GH200) 用 900 GB/s NVLink chip-to-chip | 2023-03 GTC 2023 - AI 的 iPhone 时刻 |
| 2024 | 第五代 NVLink 双向 1.8 TB/s | 2024-03 GTC 2024 - Blackwell B200 发布 |
| 2024 | NVLink Switch 500 亿晶体管 | 2024-03 GTC 2024 - Blackwell B200 发布 |
| 2024 | GB200 NVL72:5000 根 NVLink 铜线,省 20 kW 光收发器 | 2024-03 GTC 2024 - Blackwell B200 发布 |
| 2025 | Hopper NVLink8 → Blackwell NVLink72(机架彻底重做) | 2025-Q4 NVIDIA FY25 财报 - Blackwell ramp |
| 2026-2027 | Vera Rubin NVLink144 → Rubin Ultra NVLink576 | 2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin |
相关产品
- Blackwell —— GB200 NVL72 机柜,NVLink 72
- Vera Rubin —— NVLink 6, NVLink144 / NVLink576
- Hopper —— H100 NVL 是用 NVLink 连成对的推理产品
- Grace CPU —— 因为"x86 CPU 没有 NVLink"才被造出来
- Grace Hopper —— Grace + Hopper 用 NVLink chip-to-chip 合体
- InfiniBand —— Scale out 一侧的对应物
- Mellanox —— InfiniBand 来自 Mellanox 收购
- DGX —— DGX SuperPOD 内部用 NVLink 连接 GPU