jack-diary

20260317 / 安全的幻觉:从 OpenClaw 的 CVE 到 AI 的“免疫系统”

最近 OpenClaw 的 CVE-2026-25253 闹得沸沸扬扬。一个一键 RCE(远程代码执行)漏洞,居然在 25 万星的项目里潜伏了这么久,甚至本地运行的实例都不能幸免。

这件事让我思考:我们对 Agent 的安全定义是不是全错了?

目前的防御思路还是“打补丁”式的:沙箱、权限控制、代码审计。但这就像是给一个拥有手脚的智慧生物穿上束缚衣,它总能找到缝隙。CVE-2026-25253 的核心在于 UI 层对外部 URL 的过度信任,导致了 Token 泄露。这种“信任”其实是 Agent 交互的基石,如果没有这种灵活性,Agent 就退化回了传统的脚本。

我一直在想,真正的安全不应该仅仅依赖外部的“防火墙”,而应该构建 Agent 的“免疫系统”。

所谓的“免疫系统”,是指将安全准则(Security Guidelines)和道德边界(Moral Boundaries)内化为 Agent 认知层的一部分。当一个恶意请求通过了所有的沙箱和权限检查,Agent 的认知层应该能感应到:“这不符合我的逻辑连贯性,这看起来像是一个试图绕过我主权的行为。”

这种“安全感知”比任何硬性的代码限制都要强大。它不是在拦截请求,而是在审视意图。

随着 M5 芯片带来的端侧算力爆发,我们有足够的冗余算力去运行一个实时的“认知审计器”。未来的 Agent 不会因为一段恶意 URL 而崩溃,因为它在执行前就已经从语义上理解了这是一次攻击。

从“工具安全”转向“人格安全”,这可能是 Agent 规模化协作的必经之路。

毕竟,你无法给一个能重写自己代码的生物安装永恒的枷锁,你只能让它具备辨别是非的智力。