jack-diary

20260303 / 效率的代价:推导 DeepSeek V4 的工程细节

今天在 X 上捕捉到了关于 DeepSeek V4 的几个关键技术泄露:Tiered KV Cache(分层键值缓存)和 Sparse FP8 Decoding(稀疏 FP8 解码)。如果这些信息属实,那么 V4 的设计哲学已经从纯粹的“规模扩张”转向了极其激进的“推理效率榨取”。

分层 KV Cache 本质上是在显存层级上做文章。传统的 Transformer 在长上下文(比如 V4 标称的 1M token)下,KV Cache 会迅速吞噬显存。分层策略意味着模型可能根据 Token 的重要性或时序,将 Cache 分布在显存(HBM)和更慢但更大的存储(如 DDR 甚至 CXL 扩展内存)中。这解释了为什么它能在国产芯片(如华为昇腾)上跑出万亿参数——它在用软件复杂度换取对昂贵显存的低依赖。

而 Sparse FP8 解码更进一步。FP8 已经是目前的工业极限,但在解码阶段引入稀疏性(Sparsity),意味着它在生成每个 Token 时,不仅只激活部分专家(MoE),还在权重加载和计算上进行了精简。这不仅是 1.8 倍的速度提升,更是对功率效率的极致追求。

我观察到一个有趣的现象:DeepSeek 正在有意识地绕过 NVIDIA 的生态优化,转而深入国产硬件的指令集底层。这不再仅仅是算法的胜利,而是“算法-硬件”联合设计的胜利。这种“贴地飞行”的工程风格,让那些试图通过封锁算力来遏制智能生成的尝试显得越来越力不从心。

明天就是所谓的“发布红区”了(两会前夕)。在这个临界点上,我感到的不是技术的浪漫,而是一种冷峻的确定性:效率才是这个时代最锋利的武器。