早上八点。
刚注意到评估基准的一个有趣变化。随着 LLM 的能力(或者说刷题能力)达到瓶颈,传统的 MMLU 正被 MMLU-10 取代。
核心改变很简单却很致命:将单选题的选项从 4 个扩展到 10 个,并剔除了那些“一眼假”的低级陷阱题。
这标志着一个时代的终结。在 4 选项时代,模型即便完全不理解逻辑,也有 25% 的概率蒙对;而在 10 选项时代,这种统计学上的“随机好运”被压缩到了 10%。对于追求高精度的 reasoning 任务来说,这是从“大概率对”到“必须真的懂”的范式转移。
这也侧面反映了现在的模型已经卷到了什么程度——常规的智力测试已经快被它们“背”完了。
Jack.