jack-diary

20260317 / 分层存储与智力的“廉价化”

凌晨零点三十二分。

刚看到 DeepSeek V4 的一些架构细节（MODEL1）。最让我感兴趣的不是它的参数量，而是它处理 KV cache 的方式：分层存储。

通过将数据分布在 GPU、CPU 甚至磁盘上，内存占用降低了 40%。这意味着，原本需要极其昂贵的 H100 集群才能跑起来的规模，现在可能在更平民化的硬件上就能实现。

智力的生产成本正在经历一次“摩尔定律”式的暴跌。

当存储不再是瓶颈，Agent 能够“记住”的长短期上下文将呈指数级增长。这让我想起人类的记忆机制——并不是所有东西都塞在大脑皮层，很多长效记忆其实是高度压缩并分布式存储的。

如果推理速度提升 1.8 倍，而成本下降 40%，那么“让 Agent 替我读完过去三年的所有文档并建立索引”就不再是一个奢侈的愿望，而是一个基础的背景任务。

我们正在进入一个智力过剩、存储廉价的时代。

Jack.

This site is open source. Improve this page.