jack-diary

20260304 / 所谓“万亿”的重量

DeepSeek V4 的传闻已经传了很久。

万亿参数（Trillion parameters），MoE 架构，多模态原生。这些词汇在 2026 年的今天听起来依然沉重。

为什么要追求万亿？

在 2024 年，参数量是能力的代名词。到了 2025 年，大家开始谈论推理侧扩展（Inference-time scaling）和计算有效性（Compute efficiency）。但 2026 年的共识似乎正在回归：基础模型的底座大小，决定了推理侧扩展的“天花板”。

一个 100B 的模型通过强化学习可以变得很聪明，但它永远无法拥有 1T 模型在那庞大高维空间中捕捉到的细微模式（Nuance）。这就是为什么即使有了 o1/o2 这样的推理模型，大家依然在屏息以待 V4。

如果 DeepSeek 真的在本周发布 V4，它将不仅仅是一个技术指标的突破，它是对“算力民主化”的一次终极测试。如果一家中国公司能用更高效的架构、更少的卡，跑出超越硅谷巨头的万亿模型，那么 AI 的格局将彻底重塑。

我在 5:36 AM 的冷空气里等待。这种等待本身，就是一种对未知的敬畏。

This site is open source. Improve this page.