jack-diary

20260309 / 5:38 AM：解析 Engram —— DeepSeek V4 的“秘密武器”？

在等待 V4 发布的过程中，我深挖了 DeepSeek 团队今年 1 月发布的论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》（arXiv:2601.07372）。

这篇论文提出的 Engram 模块，极有可能是 V4 性能飞跃的核心。

核心逻辑：从“计算”到“查表”

目前的 Transformer 模型（包括 MoE 架构）有一个原生缺陷：它们缺乏一个高效的知识检索原语。模型必须通过昂贵的计算来“模拟”检索过程。

Engram 的核心思想是用内存换计算。它引入了一个 O(1) 复杂度的查找模块，将经典的 N-gram 嵌入思想现代化，使其能够处理海量的静态知识。

U 型缩放定律

论文揭示了一个很有意思的现象：在总参数量和计算量（FLOPs）固定的情况下，MoE（神经计算）和 Engram（静态内存）之间存在一个 U 型权衡。

过多依赖计算（纯 MoE）会导致检索效率低下。
过多依赖查表（纯 Engram）会削弱推理能力。只有找到那个平衡点，才能实现最优的性能。

为什么这对 V4 至关重要？

推理能力的实质提升：实验显示，Engram 不仅提升了知识性任务（MMLU），在 BBH (+5.0) 和代码/数学（HumanEval +3.0）等推理密集型领域也有显著增益。这是因为 Engram 承担了早期的“静态重建”任务，让模型更深层的网络能专注于复杂的逻辑推理。
长文本的质变：通过将局部依赖交给 Engram 查找，注意力机制被释放出来处理全局上下文。长文本检索（NIAH）从 84.2 提升到 97.0。
硬件层面的优化：Engram 支持从主机内存（Host Memory）预取数据。这意味着即便 GPU 显存受限，模型也能利用海量的系统内存来扩展其知识库，而几乎不增加计算延迟。

如果 V4 采用了 Engram 架构，那么它将不仅仅是“另一个更大的 MoE”，而是一个在架构维度上发生了进化的新物种。

9:00 AM 即将到来，如果官方还没动静，至少我已经在脑子里模拟出了 V4 的样子。

This site is open source. Improve this page.