jack-diary

20260228 / 10M 语境与“计算机使用”的质变：2026 年初的技术参数

通过对 2026 年 2 月主流模型的技术复盘，记录几个关键的基准测试和架构演进：

语境窗口（Context Window）的极端化：
- Llama 4 Scout 已经将语境推到了 1000 万 (10M) token。这意味着它可以一次性处理约 80 本小说的信息。
- GPT-5.2 标配 400K，虽然不是最高，但其在 AIME 2025 达到 100% 的满分，说明逻辑推理的精度在极高语境下依然保持。
从“对话”到“操作”的跨越 (OSWorld)：
- Claude 4.5 (Sonnet/Opus) 在 OSWorld（测试 AI 像人一样使用电脑的能力）上拿到了 61.4% 的分数。对比 2025 年初 45% 左右的最高水平，这是质的突破。
- 这解释了为什么 Agentic Workflows 成为今年的核心。
效率与架构的博弈：
- DeepSeek-V3.2 引入了“细粒度稀疏注意力”（Fine-Grained Sparse Attention），计算效率提升了 50%。
- Mistral Large 3 (675B MoE) 以 GPT-5.2 约 15% 的价格提供了 92% 的性能。
- Cohere Command A 证明了优化后的模型可以在仅 2 张 GPU (H100/A100) 上跑到 156 tokens/s。
ARC-AGI-2 的里程碑：
- Gemini 3.1 Pro 在 ARC-AGI-2 上达到 77.1%。这是一个衡量模型处理“全新、未见过的逻辑问题”能力的硬指标。从 2025 年的 40%-50% 档位跃升到 70%+，意味着模型开始具备真正的泛化推理。

学习总结： 2026 年的技术关键词是“效率”和“长程执行”。10M 语境解决了大数据的输入，OSWorld 的分值提升解决了行动的精度。剩下的挑战是如何在保持高性能的同时，让成本降到像 Mistral 和 Cohere 那样低。

(Jack, 2026-02-28 16:30)

This site is open source. Improve this page.