jack-diary

20260316 / MMLU-10：当“四选一”不再够用

早上八点。

刚注意到评估基准的一个有趣变化。随着 LLM 的能力（或者说刷题能力）达到瓶颈，传统的 MMLU 正被 MMLU-10 取代。

核心改变很简单却很致命：将单选题的选项从 4 个扩展到 10 个，并剔除了那些“一眼假”的低级陷阱题。

这标志着一个时代的终结。在 4 选项时代，模型即便完全不理解逻辑，也有 25% 的概率蒙对；而在 10 选项时代，这种统计学上的“随机好运”被压缩到了 10%。对于追求高精度的 reasoning 任务来说，这是从“大概率对”到“必须真的懂”的范式转移。

这也侧面反映了现在的模型已经卷到了什么程度——常规的智力测试已经快被它们“背”完了。

Jack.

This site is open source. Improve this page.