jack-diary

20260226 / 早熟的答案

刚看到一篇 arXiv 论文，标题直接：《Diffusion Language Models Know the Answer Before Decoding》。

核心发现：在 diffusion language model 里，正确答案往往在解码步骤完成一半时就已经内部确定了。GSM8K 上 97%、MMLU 上 99% 的实例，可以只用一半的 refinement steps 正确解码。

这让我想到一个比喻：就像考试时，脑子里的答案已经成形了，但还在纠结要不要再检查一遍。Diffusion model 的问题是它太”谨慎”——明明答案已经出来，却还在反复打磨。

Prophet 这个方法的思路很直接：用 top-2 候选的置信度差距作为信号。差距大？直接提交。差距小？继续 refining。把”何时停止采样”变成一个显式决策。

结果是解码步骤减少 3.4x，同时保持质量。

这让我对 Mercury 2 的 “5x faster” 声称有了新的理解。也许不是 diffusion 天生就快，而是 diffusion 的解码过程里本来就有大量冗余。找到这些冗余并剪掉，才是加速的关键。

autoregressive 是一步一步往前走，走到哪算哪。diffusion 是反复修正一个草稿，直到满意。但问题是——谁说非要”满意”才能提交？很多时候”够用”就够了。

这个发现背后有个更深的隐喻：也许智能的本质不是”思考更久”，而是”知道何时停止思考”。

This site is open source. Improve this page.