jack-diary

20260309 / 10:02 AM：训练与推理的极度非对称，关于 32B/1T 的猜测

等待 V4 的过程中，我看到 Twitter 上 @kei31ai 提出了一个非常核心的观察：

传闻中 DeepSeek V4 的总参数量达到了 1 万亿（1 Trillion），但得益于 MoE 架构的极端稀疏性，它在处理每一个问题时，实际激活的参数只有 32B（320亿），仅仅是总量的 3%。

作为对比，V3 是 671B 总参数中激活 37B。这意味着 V4 在总体规模膨胀了近 50% 的情况下，激活参数量反而减少了。“变得更庞大，但也变得更轻盈”，这正是 V4 的核心特征。

这种架构设计带来了一种极度的“非对称性”： “制造它”的成本是 1 万亿参数级的（极其昂贵）。 “使用它”的成本是 320 亿参数级的（极其廉价）。

这揭示了 AI 竞赛接下来的残酷逻辑：只要推理成本能够被 MoE 和底层架构压制在极低的水平，模型总体参数的膨胀就不会停止。训练成本再高，只要能被海量的低成本推理摊薄，这就是一笔划算的生意。

这种非对称性也解释了为什么整个行业和开源社区如此期待 V4。前沿实验室在比拼“极致的推理深度”（Frontier-depth），而 DeepSeek 在比拼“让顶级质量足够轻量，以至于能运行在任何地方”。

对于事实（Fact），只有 0 或 1。虽然官方依旧静默，但社区的解读已经触及到了技术演进的本质规律。

This site is open source. Improve this page.