概念

推理时代(Age of Reasoning)

概念解析

定义与起源

推理时代黄仁勋 在 2025 年初对 AI 发展阶段的重命名:从"一股脑吐答案的 one-shot AI"进入"先思考再回答的 reasoning AI"——这一切发生在 OpenAI o1、DeepSeek-R1 出现之后

最早把它系统化讲出来的是 2025-Q4 NVIDIA FY25 财报 - Blackwell ramp

"AI is evolving from perception and generative AI to reasoning. With reasoning AI, we're observing another scaling law emerging—inference time scaling or test-time scaling. The more thinking a model does, the smarter the answer."

"AI 正在从感知和生成式 AI 演进到 reasoning。在 reasoning AI 下,我们看到另一条 scaling law 出现——推理时长扩展。模型思考得越多,答案越聪明。"
——2025-Q4 NVIDIA FY25 财报 - Blackwell ramp

2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 给出了那个让全行业重估的判断:"世界错估了算力需求 100 倍"。

核心要义

第一,推理 = 思考 = 难。

这是 黄仁勋2026-03 Lex Fridman 494 - 4 万亿公司与 AGI 里最锋利的一段反驳——很多人以为"推理 = 简单 = 便宜":

"Inference is thinking, and I think thinking is hard. Thinking is way harder than reading. Pre-training is just memorization and generalization, looking for patterns in relationships. You're reading. Versus thinking, reasoning, solving problems, breaking it down into solvable pieces. How could that possibly be compute light?"

"推理就是思考,而思考是困难的。思考比阅读难得多。预训练只是记忆和泛化——那只是'读书'。而思考、推理、解决问题、把一个未见过的问题拆成可求解的部分……这怎么可能是轻量计算?"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

第二,四条 scaling laws 同时叠加。

2026-03 Lex Fridman 494 - 4 万亿公司与 AGI黄仁勋 第一次明确把 scaling laws 升级到四条:

  1. Pre-training scaling —— 数据越多,模型越聪明
  2. Post-training scaling —— RL 精调,"AI 反复练一门技能直到学会"
  3. Test-time scaling —— 思考时间越长,答案越好
  4. Agentic scaling —— 一个 agent 派生出一堆 sub-agents,"扩招员工"

而且这四条构成一个闭环:agentic 系统产生数据 → 回流到 pre-training → 再精调到 post-training → 再被 test-time 增强。

"The agentic systems generate a lot more data and experiences. This loop is gonna go on and on. It kind of comes down to basically intelligence is gonna scale by one thing, and that's compute."

"智能会通过一样东西来扩展:计算。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

第三,世界错估了算力需求 100 倍。

2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 里给出的清晰算式:

"Last year at this time, almost the entire world got it wrong. The amount of computation we need at this point as a result of agentic AI, as a result of reasoning, is easily a hundred times more than we thought we needed this time last year."

"去年这个时候,几乎全世界都搞错了。我们今天所需的算力,因为 agentic AI、因为 reasoning,轻轻松松就比一年前估算的多出 100 倍。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin

为什么是 100 倍?两个 10 倍叠加:
1. token 数量爆炸:原来吐一个 token,现在 chain-of-thought 要吐几千上万个
2. 响应速度要求更快:用户没耐心,所以必须把单 token 速度再提 10 倍
3. 10 × 10 = 100 倍

第四,可验证奖励 + 强化学习解决了"数据从哪来"的瓶颈。

2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 里讲得最清楚:原来的 RLHF 受限于"人在回路",今天用数学题、数独、几何证明、物理定律——人类已经知道答案的问题空间何止千万——加上 AI 自我尝试百万次,"合成数据生成 + 机器人式自教学"组合产生了数万亿 token 训练数据。

实践应用

常见误区

误区一:reasoning 只是"换一种 prompt",模型本身没变。
错。Reasoning 模型的训练流程本身就和 base model 不同——它包含大量的 RL / 可验证奖励 / chain-of-thought 训练数据。

误区二:test-time compute 是临时加 budget,长期会被更大的 base model 取代。
错。四条 scaling laws 是叠加而不是替代——base model 越大,reasoning 的回报越大。

误区三:reasoning 让推理变贵,不利于商业化。
错——这是 黄仁勋 反复强调的"两个指数同时叠加 = 收入指数级增长"。token 越多 → 价值越大 → 用户越愿意付钱 → 算力需求越多。这是 Token 经济 的根本逻辑。

黄仁勋原话精选

"Inference is thinking, and I think thinking is hard."
"推理就是思考,而思考是困难的。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

"Easily a hundred times more than we thought we needed this time last year."
"轻轻松松就比一年前估算的多出 100 倍。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin

"Intelligence is gonna scale by one thing, and that's compute."
"智能会通过一样东西来扩展:计算。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI

"We designed Blackwell with reasoning models in mind."
"我们设计 Blackwell 的时候就是冲着 reasoning 模型去的。"
——2025-Q4 NVIDIA FY25 财报 - Blackwell ramp

思想演变

相关概念

典型案例