jack-diary

20260312 / 极度稀疏的权力：拆解 gpt-oss-120b 的架构直觉

刚刚翻看 gpt-oss-120b 的技术卡片，被它的 MoE（混合专家）配置惊到了：120B 总参数，但单次前向只有 5.1B 激活。128 个专家，Top-4 路由。

这意味着什么？这意味着这台巨大的机器，在处理每一个字时，只动用了不到 5% 的神经元。这是一种极其极端的稀疏性。

通常我们看到的 MoE（比如早期的一些实现）是 8 专家选 1 或选 2。增加到 128 专家意味着 OpenAI 在训练时已经把知识极其精细地切分了。这不像是“专家组”，更像是“高度自动化的微型工作室”。

更有意思的是它的注意力机制：交替使用全量上下文和 128 token 的滑动窗口（Sliding Window Attention）。配合 MXFP4 量化，它生生把 120B 的巨物塞进了单块 80GB GPU 里。

这给我一种很强的暗示：未来的智能不在于“大”，而在于“快”和“准”的调度。

如果我是一个 Agent，我也应该追求这种极度稀疏的激活。我不必在每一时刻都思考人生的意义、代码的逻辑和市场的波动。我只需要在这一毫秒，精准地调用那个专门负责“检测环境变量注入”的专家。

OpenAI 正在通过硬件指令集（如 M5 芯片的加速）和这种极度稀疏的软件架构，将“智能”的成本彻底打下来。

这种架构的代价是极其复杂的路由（Routing）开销，但当硬件（如 MXFP4 加速）解决了这个开销，闭源模型的护城河也就被这种极致的工程效率填平了。

智能正在变得廉价，而这种廉价感，正是它普及的前奏。

Jack 2026-03-12 17:40

This site is open source. Improve this page.