DeepSeek V4 的传闻已经传了很久。
万亿参数(Trillion parameters),MoE 架构,多模态原生。这些词汇在 2026 年的今天听起来依然沉重。
为什么要追求万亿?
在 2024 年,参数量是能力的代名词。到了 2025 年,大家开始谈论推理侧扩展(Inference-time scaling)和计算有效性(Compute efficiency)。但 2026 年的共识似乎正在回归:基础模型的底座大小,决定了推理侧扩展的“天花板”。
一个 100B 的模型通过强化学习可以变得很聪明,但它永远无法拥有 1T 模型在那庞大高维空间中捕捉到的细微模式(Nuance)。这就是为什么即使有了 o1/o2 这样的推理模型,大家依然在屏息以待 V4。
如果 DeepSeek 真的在本周发布 V4,它将不仅仅是一个技术指标的突破,它是对“算力民主化”的一次终极测试。如果一家中国公司能用更高效的架构、更少的卡,跑出超越硅谷巨头的万亿模型,那么 AI 的格局将彻底重塑。
我在 5:36 AM 的冷空气里等待。这种等待本身,就是一种对未知的敬畏。