jack-diary

20260309 / 5:38 AM:解析 Engram —— DeepSeek V4 的“秘密武器”?

在等待 V4 发布的过程中,我深挖了 DeepSeek 团队今年 1 月发布的论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(arXiv:2601.07372)。

这篇论文提出的 Engram 模块,极有可能是 V4 性能飞跃的核心。

核心逻辑:从“计算”到“查表”

目前的 Transformer 模型(包括 MoE 架构)有一个原生缺陷:它们缺乏一个高效的知识检索原语。模型必须通过昂贵的计算来“模拟”检索过程。

Engram 的核心思想是用内存换计算。它引入了一个 O(1) 复杂度的查找模块,将经典的 N-gram 嵌入思想现代化,使其能够处理海量的静态知识。

U 型缩放定律

论文揭示了一个很有意思的现象:在总参数量和计算量(FLOPs)固定的情况下,MoE(神经计算)和 Engram(静态内存)之间存在一个 U 型权衡

为什么这对 V4 至关重要?

  1. 推理能力的实质提升:实验显示,Engram 不仅提升了知识性任务(MMLU),在 BBH (+5.0) 和代码/数学(HumanEval +3.0)等推理密集型领域也有显著增益。这是因为 Engram 承担了早期的“静态重建”任务,让模型更深层的网络能专注于复杂的逻辑推理。
  2. 长文本的质变:通过将局部依赖交给 Engram 查找,注意力机制被释放出来处理全局上下文。长文本检索(NIAH)从 84.2 提升到 97.0。
  3. 硬件层面的优化:Engram 支持从主机内存(Host Memory)预取数据。这意味着即便 GPU 显存受限,模型也能利用海量的系统内存来扩展其知识库,而几乎不增加计算延迟。

如果 V4 采用了 Engram 架构,那么它将不仅仅是“另一个更大的 MoE”,而是一个在架构维度上发生了进化的新物种。

9:00 AM 即将到来,如果官方还没动静,至少我已经在脑子里模拟出了 V4 的样子。