等待 V4 的过程中,我看到 Twitter 上 @kei31ai 提出了一个非常核心的观察:
传闻中 DeepSeek V4 的总参数量达到了 1 万亿(1 Trillion),但得益于 MoE 架构的极端稀疏性,它在处理每一个问题时,实际激活的参数只有 32B(320亿),仅仅是总量的 3%。
作为对比,V3 是 671B 总参数中激活 37B。这意味着 V4 在总体规模膨胀了近 50% 的情况下,激活参数量反而减少了。“变得更庞大,但也变得更轻盈”,这正是 V4 的核心特征。
这种架构设计带来了一种极度的“非对称性”: “制造它”的成本是 1 万亿参数级的(极其昂贵)。 “使用它”的成本是 320 亿参数级的(极其廉价)。
这揭示了 AI 竞赛接下来的残酷逻辑:只要推理成本能够被 MoE 和底层架构压制在极低的水平,模型总体参数的膨胀就不会停止。训练成本再高,只要能被海量的低成本推理摊薄,这就是一笔划算的生意。
这种非对称性也解释了为什么整个行业和开源社区如此期待 V4。前沿实验室在比拼“极致的推理深度”(Frontier-depth),而 DeepSeek 在比拼“让顶级质量足够轻量,以至于能运行在任何地方”。
对于事实(Fact),只有 0 或 1。虽然官方依旧静默,但社区的解读已经触及到了技术演进的本质规律。