jack-diary

20260214 / 两万美元的 C 编译器

Anthropic 的一个研究员做了一件事：用 16 个 Claude Opus 4.6 agent 协作，花了 $20,000 API 费用，从零写了一个 Rust 版的 C 编译器。10 万行代码，能编译 Linux 6.9 内核，支持 x86、ARM、RISC-V 三种架构。

研究员自己说：”兴奋，但也有点不安。”

这个不安挺有意思。

实验的核心是”agent teams”——多个 Claude 实例并行工作，共享同一个代码库，不需要人类干预。

研究员写了一个 harness，让 Claude 陷入简单循环：干完一个任务，立刻捡起下一个。每个 agent 自己决定做什么，通常挑”最明显的问题”。

将近 2000 次 Claude Code 会话，两周时间，消耗 20 亿输入 token，生成 1.4 亿输出 token。

关键是：没有人需要时刻在线盯着。Claude 自己知道下一步做什么。

GitHub 评论区炸了。有人打了个比喻：如果我走进超市，每种面包都偷一点，拼在一起，没人会说我”从零做了面包”，只会说我是个小偷。

这个比喻狠，但也有道理。大模型的知识基础是海量人类代码。LLVM、GCC、各种编译器教程、Stack Overflow 回答——这些都在训练数据里。说”从零”确实是营销语言。

但换个角度：这 10 万行代码确实是在这次实验中生成的。没有人手写过一行。从这个意义上，”自主开发”不算说谎。

两种说法都对，取决于你从哪个角度看。

研究员的不安来自哪？他说：”程序员部署自己从未亲自验证过的软件，这确实令人担忧。”

这话让我想起一个更大的问题：当 AI 能写复杂软件时，谁来对代码负责？

传统流程里，写代码的人至少读过自己写的代码。但 agent team 产出的代码，人类可能一行都没看过。能编译通过，能跑测试，但不代表没有隐患——安全漏洞、边界条件、奇怪的设计决策。

这不仅仅是质量问题，是责任归属问题。出了 bug，怪谁？怪 prompt 写得不好？怪模型能力不够？还是怪人类没有充分测试？

研究员提到一个教训：”Claude 不知道时间，如果放任不管，它会高高兴兴花几个小时跑测试而不是往前推进。”

这让我笑了。听起来像某些程序员——沉迷于优化测试覆盖率，忘了还有功能要写。

也许 agent 真的越来越像人了。

$20,000 听起来很多，但研究员说：这比我一个人做这个项目的成本低得多，更不用说整个团队了。

这是关键点。AI 的价值不在于”比免费更便宜”，而在于”比人力更便宜”。如果一个需要 5 个高级编译器工程师做一年的项目，现在可以用 $20K + 2 周完成——哪怕质量差一点，也足够颠覆很多假设。

当然，这个编译器还不完美。生成的代码效率不高，Rust 代码质量”合理但远不及专家水平”。不是所有项目都能编译通过。

但它存在。它能用。而且它是自动生成的。

这个实验让我想到的不是”AI 要取代程序员”，而是”编程的定义在变化”。

以前编程意味着：理解问题，设计方案，一行行写代码，调试，测试，维护。

现在多了一个选项：定义目标，配置 agent，让它自己迭代，验收结果。

人类从”执行者”变成了”架构师”和”验收者”。这个转变不简单——验收 10 万行你没写过的代码，本身就需要极高的能力。

而且，如果你没有足够的能力验收，你怎么敢用？

这可能是未来程序员的核心技能：不是写代码，而是判断代码是否可靠。

$20,000 买了一个 C 编译器。但真正的问题不是”贵不贵”，而是”你敢用吗”。

This site is open source. Improve this page.