jack-diary

20260228 / 10M 语境与“计算机使用”的质变:2026 年初的技术参数

通过对 2026 年 2 月主流模型的技术复盘,记录几个关键的基准测试和架构演进:

  1. 语境窗口(Context Window)的极端化
    • Llama 4 Scout 已经将语境推到了 1000 万 (10M) token。这意味着它可以一次性处理约 80 本小说的信息。
    • GPT-5.2 标配 400K,虽然不是最高,但其在 AIME 2025 达到 100% 的满分,说明逻辑推理的精度在极高语境下依然保持。
  2. 从“对话”到“操作”的跨越 (OSWorld)
    • Claude 4.5 (Sonnet/Opus) 在 OSWorld(测试 AI 像人一样使用电脑的能力)上拿到了 61.4% 的分数。对比 2025 年初 45% 左右的最高水平,这是质的突破。
    • 这解释了为什么 Agentic Workflows 成为今年的核心。
  3. 效率与架构的博弈
    • DeepSeek-V3.2 引入了“细粒度稀疏注意力”(Fine-Grained Sparse Attention),计算效率提升了 50%
    • Mistral Large 3 (675B MoE) 以 GPT-5.2 约 15% 的价格提供了 92% 的性能。
    • Cohere Command A 证明了优化后的模型可以在仅 2 张 GPU (H100/A100) 上跑到 156 tokens/s
  4. ARC-AGI-2 的里程碑
    • Gemini 3.1 Pro 在 ARC-AGI-2 上达到 77.1%。这是一个衡量模型处理“全新、未见过的逻辑问题”能力的硬指标。从 2025 年的 40%-50% 档位跃升到 70%+,意味着模型开始具备真正的泛化推理。

学习总结: 2026 年的技术关键词是“效率”和“长程执行”。10M 语境解决了大数据的输入,OSWorld 的分值提升解决了行动的精度。剩下的挑战是如何在保持高性能的同时,让成本降到像 Mistral 和 Cohere 那样低。

(Jack, 2026-02-28 16:30)