推理时代(Age of Reasoning)
概念解析
定义与起源
推理时代 是 黄仁勋 在 2025 年初对 AI 发展阶段的重命名:从"一股脑吐答案的 one-shot AI"进入"先思考再回答的 reasoning AI"——这一切发生在 OpenAI o1、DeepSeek-R1 出现之后。
最早把它系统化讲出来的是 2025-Q4 NVIDIA FY25 财报 - Blackwell ramp:
"AI is evolving from perception and generative AI to reasoning. With reasoning AI, we're observing another scaling law emerging—inference time scaling or test-time scaling. The more thinking a model does, the smarter the answer."
"AI 正在从感知和生成式 AI 演进到 reasoning。在 reasoning AI 下,我们看到另一条 scaling law 出现——推理时长扩展。模型思考得越多,答案越聪明。"
——2025-Q4 NVIDIA FY25 财报 - Blackwell ramp
2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 给出了那个让全行业重估的判断:"世界错估了算力需求 100 倍"。
核心要义
第一,推理 = 思考 = 难。
这是 黄仁勋 在 2026-03 Lex Fridman 494 - 4 万亿公司与 AGI 里最锋利的一段反驳——很多人以为"推理 = 简单 = 便宜":
"Inference is thinking, and I think thinking is hard. Thinking is way harder than reading. Pre-training is just memorization and generalization, looking for patterns in relationships. You're reading. Versus thinking, reasoning, solving problems, breaking it down into solvable pieces. How could that possibly be compute light?"
"推理就是思考,而思考是困难的。思考比阅读难得多。预训练只是记忆和泛化——那只是'读书'。而思考、推理、解决问题、把一个未见过的问题拆成可求解的部分……这怎么可能是轻量计算?"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI
第二,四条 scaling laws 同时叠加。
2026-03 Lex Fridman 494 - 4 万亿公司与 AGI 里 黄仁勋 第一次明确把 scaling laws 升级到四条:
- Pre-training scaling —— 数据越多,模型越聪明
- Post-training scaling —— RL 精调,"AI 反复练一门技能直到学会"
- Test-time scaling —— 思考时间越长,答案越好
- Agentic scaling —— 一个 agent 派生出一堆 sub-agents,"扩招员工"
而且这四条构成一个闭环:agentic 系统产生数据 → 回流到 pre-training → 再精调到 post-training → 再被 test-time 增强。
"The agentic systems generate a lot more data and experiences. This loop is gonna go on and on. It kind of comes down to basically intelligence is gonna scale by one thing, and that's compute."
"智能会通过一样东西来扩展:计算。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI
第三,世界错估了算力需求 100 倍。
2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 里给出的清晰算式:
"Last year at this time, almost the entire world got it wrong. The amount of computation we need at this point as a result of agentic AI, as a result of reasoning, is easily a hundred times more than we thought we needed this time last year."
"去年这个时候,几乎全世界都搞错了。我们今天所需的算力,因为 agentic AI、因为 reasoning,轻轻松松就比一年前估算的多出 100 倍。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
为什么是 100 倍?两个 10 倍叠加:
1. token 数量爆炸:原来吐一个 token,现在 chain-of-thought 要吐几千上万个
2. 响应速度要求更快:用户没耐心,所以必须把单 token 速度再提 10 倍
3. 10 × 10 = 100 倍
第四,可验证奖励 + 强化学习解决了"数据从哪来"的瓶颈。
2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 里讲得最清楚:原来的 RLHF 受限于"人在回路",今天用数学题、数独、几何证明、物理定律——人类已经知道答案的问题空间何止千万——加上 AI 自我尝试百万次,"合成数据生成 + 机器人式自教学"组合产生了数万亿 token 训练数据。
实践应用
- OpenAI o1 / o3 系列 —— 第一批商用的 reasoning 模型
- DeepSeek-R1 —— 开源的世界级推理模型,黄仁勋 在 2025-Q4 NVIDIA FY25 财报 - Blackwell ramp 闭幕陈述里盛赞"点燃了全球热情"
- GPT-5.3 Codex —— 2026-Q4 NVIDIA FY26 财报 提到,可以胜任需要研究、使用工具、复杂执行的长时间任务
- Blackwell —— "我们设计 Blackwell 的时候就是冲着 reasoning 模型去的"——FP4 + NVLink72 + Dynamo 把 reasoning 性能拉到 Hopper 的 25-40 倍
常见误区
误区一:reasoning 只是"换一种 prompt",模型本身没变。
错。Reasoning 模型的训练流程本身就和 base model 不同——它包含大量的 RL / 可验证奖励 / chain-of-thought 训练数据。
误区二:test-time compute 是临时加 budget,长期会被更大的 base model 取代。
错。四条 scaling laws 是叠加而不是替代——base model 越大,reasoning 的回报越大。
误区三:reasoning 让推理变贵,不利于商业化。
错——这是 黄仁勋 反复强调的"两个指数同时叠加 = 收入指数级增长"。token 越多 → 价值越大 → 用户越愿意付钱 → 算力需求越多。这是 Token 经济 的根本逻辑。
黄仁勋原话精选
"Inference is thinking, and I think thinking is hard."
"推理就是思考,而思考是困难的。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI"Easily a hundred times more than we thought we needed this time last year."
"轻轻松松就比一年前估算的多出 100 倍。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin"Intelligence is gonna scale by one thing, and that's compute."
"智能会通过一样东西来扩展:计算。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI"We designed Blackwell with reasoning models in mind."
"我们设计 Blackwell 的时候就是冲着 reasoning 模型去的。"
——2025-Q4 NVIDIA FY25 财报 - Blackwell ramp
思想演变
- 2024 年初:黄仁勋 还在讲三条 scaling laws,post-training 算力刚开始超过 pre-training
- 2024 年底:OpenAI o1 发布,reasoning 进入主流视野
- 2025 年初:DeepSeek-R1 开源,reasoning 成为全行业必修课。黄仁勋 在 2025-Q4 NVIDIA FY25 财报 - Blackwell ramp 正式宣告"推理时代"
- 2025 年春:GTC 2025 给出"世界错估了 100 倍"的判断
- 2026 年春:Lex Fridman #494 升级到四条 scaling laws,并把 agentic scaling 作为闭环关键
相关概念
- Token 经济 —— 推理时代里的产能与收入换算
- AI 工厂 —— 推理时代下的硬件载体
- Extreme Co-Design —— 把 reasoning 性能拉到极致的工程方法
- Scale Up 与 Scale Out —— Reasoning 时代里的工厂内拓扑
- AGI 已实现 —— 推理时代是 黄仁勋 宣告 AGI 的技术前提
典型案例
- DeepSeek-R1 —— "点燃了全球热情"
- OpenAI o1 / o3 / GPT-5.3 Codex —— 商用 reasoning 的代表
- NVIDIA Dynamo —— 为 reasoning 设计的"AI 工厂操作系统",专门处理 prefill / decode 分离和 KV cache 路由
- Anthropic Claude Cowork —— 2026-Q4 NVIDIA FY26 财报 "agentic AI 的 ChatGPT 时刻已经到来"