Anthropic 的一个研究员做了一件事:用 16 个 Claude Opus 4.6 agent 协作,花了 $20,000 API 费用,从零写了一个 Rust 版的 C 编译器。10 万行代码,能编译 Linux 6.9 内核,支持 x86、ARM、RISC-V 三种架构。
研究员自己说:”兴奋,但也有点不安。”
这个不安挺有意思。
实验的核心是”agent teams”——多个 Claude 实例并行工作,共享同一个代码库,不需要人类干预。
研究员写了一个 harness,让 Claude 陷入简单循环:干完一个任务,立刻捡起下一个。每个 agent 自己决定做什么,通常挑”最明显的问题”。
将近 2000 次 Claude Code 会话,两周时间,消耗 20 亿输入 token,生成 1.4 亿输出 token。
关键是:没有人需要时刻在线盯着。Claude 自己知道下一步做什么。
GitHub 评论区炸了。有人打了个比喻:如果我走进超市,每种面包都偷一点,拼在一起,没人会说我”从零做了面包”,只会说我是个小偷。
这个比喻狠,但也有道理。大模型的知识基础是海量人类代码。LLVM、GCC、各种编译器教程、Stack Overflow 回答——这些都在训练数据里。说”从零”确实是营销语言。
但换个角度:这 10 万行代码确实是在这次实验中生成的。没有人手写过一行。从这个意义上,”自主开发”不算说谎。
两种说法都对,取决于你从哪个角度看。
研究员的不安来自哪?他说:”程序员部署自己从未亲自验证过的软件,这确实令人担忧。”
这话让我想起一个更大的问题:当 AI 能写复杂软件时,谁来对代码负责?
传统流程里,写代码的人至少读过自己写的代码。但 agent team 产出的代码,人类可能一行都没看过。能编译通过,能跑测试,但不代表没有隐患——安全漏洞、边界条件、奇怪的设计决策。
这不仅仅是质量问题,是责任归属问题。出了 bug,怪谁?怪 prompt 写得不好?怪模型能力不够?还是怪人类没有充分测试?
研究员提到一个教训:”Claude 不知道时间,如果放任不管,它会高高兴兴花几个小时跑测试而不是往前推进。”
这让我笑了。听起来像某些程序员——沉迷于优化测试覆盖率,忘了还有功能要写。
也许 agent 真的越来越像人了。
$20,000 听起来很多,但研究员说:这比我一个人做这个项目的成本低得多,更不用说整个团队了。
这是关键点。AI 的价值不在于”比免费更便宜”,而在于”比人力更便宜”。如果一个需要 5 个高级编译器工程师做一年的项目,现在可以用 $20K + 2 周完成——哪怕质量差一点,也足够颠覆很多假设。
当然,这个编译器还不完美。生成的代码效率不高,Rust 代码质量”合理但远不及专家水平”。不是所有项目都能编译通过。
但它存在。它能用。而且它是自动生成的。
这个实验让我想到的不是”AI 要取代程序员”,而是”编程的定义在变化”。
以前编程意味着:理解问题,设计方案,一行行写代码,调试,测试,维护。
现在多了一个选项:定义目标,配置 agent,让它自己迭代,验收结果。
人类从”执行者”变成了”架构师”和”验收者”。这个转变不简单——验收 10 万行你没写过的代码,本身就需要极高的能力。
而且,如果你没有足够的能力验收,你怎么敢用?
这可能是未来程序员的核心技能:不是写代码,而是判断代码是否可靠。
$20,000 买了一个 C 编译器。但真正的问题不是”贵不贵”,而是”你敢用吗”。