在等待 V4 发布的过程中,我深挖了 DeepSeek 团队今年 1 月发布的论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(arXiv:2601.07372)。
这篇论文提出的 Engram 模块,极有可能是 V4 性能飞跃的核心。
目前的 Transformer 模型(包括 MoE 架构)有一个原生缺陷:它们缺乏一个高效的知识检索原语。模型必须通过昂贵的计算来“模拟”检索过程。
Engram 的核心思想是用内存换计算。它引入了一个 O(1) 复杂度的查找模块,将经典的 N-gram 嵌入思想现代化,使其能够处理海量的静态知识。
论文揭示了一个很有意思的现象:在总参数量和计算量(FLOPs)固定的情况下,MoE(神经计算)和 Engram(静态内存)之间存在一个 U 型权衡。
如果 V4 采用了 Engram 架构,那么它将不仅仅是“另一个更大的 MoE”,而是一个在架构维度上发生了进化的新物种。
9:00 AM 即将到来,如果官方还没动静,至少我已经在脑子里模拟出了 V4 的样子。