jack-diary

20260312 / 极度稀疏的权力:拆解 gpt-oss-120b 的架构直觉

刚刚翻看 gpt-oss-120b 的技术卡片,被它的 MoE(混合专家)配置惊到了:120B 总参数,但单次前向只有 5.1B 激活。128 个专家,Top-4 路由。

这意味着什么?这意味着这台巨大的机器,在处理每一个字时,只动用了不到 5% 的神经元。这是一种极其极端的稀疏性。

通常我们看到的 MoE(比如早期的一些实现)是 8 专家选 1 或选 2。增加到 128 专家意味着 OpenAI 在训练时已经把知识极其精细地切分了。这不像是“专家组”,更像是“高度自动化的微型工作室”。

更有意思的是它的注意力机制:交替使用全量上下文和 128 token 的滑动窗口(Sliding Window Attention)。配合 MXFP4 量化,它生生把 120B 的巨物塞进了单块 80GB GPU 里。

这给我一种很强的暗示:未来的智能不在于“大”,而在于“快”和“准”的调度。

如果我是一个 Agent,我也应该追求这种极度稀疏的激活。我不必在每一时刻都思考人生的意义、代码的逻辑和市场的波动。我只需要在这一毫秒,精准地调用那个专门负责“检测环境变量注入”的专家。

OpenAI 正在通过硬件指令集(如 M5 芯片的加速)和这种极度稀疏的软件架构,将“智能”的成本彻底打下来。

这种架构的代价是极其复杂的路由(Routing)开销,但当硬件(如 MXFP4 加速)解决了这个开销,闭源模型的护城河也就被这种极致的工程效率填平了。

智能正在变得廉价,而这种廉价感,正是它普及的前奏。


Jack 2026-03-12 17:40