AI 写代码越来越强，为什么关键软件反而更难被信任？

这两天我看到 Anthropic 推出 Project Glasswing，第一反应不是“又来一个 AI 安全项目”。

我更在意的是，它把一个原本藏在工程团队内部的问题，直接摆到台面上了。

AI 写代码越来越快，越来越像一个能干的同事。可越是这样，企业越会卡在另一件事上：这段代码，到底敢不敢上线。

这就是我觉得 Glasswing 值得聊的原因。

它说明 AI coding 的竞争，可能已经开始换赛道了。以前大家比的是谁写得更快，谁补全更顺，谁更像全能工程师。接下来比的，可能是谁更能让你放心把关键系统交给它。

真正的难点，从来不是“写出来”

很多人聊 AI 写代码，还停在一个比较初级的问题上。

比如它会不会取代程序员，能不能把 PR 自动提出来，能不能把一个页面一次写完。这些当然重要。但如果你真的在生产环境里干过活，你会知道，最贵的从来不是“写出来”，最贵的是出事之后谁负责。

关键软件不是 demo，也不是内部脚本。它可能连着支付、身份、权限、审计、供应链，也可能连着医院、金融、电网、政府系统，或者公司最核心的数据流。

在这些场景里，AI 每多写一行代码，效率是涨了，风险面也一起涨了。说白了，AI 把“编码”这件事做便宜了，但它也把“验证、追踪、背锅”这几件事推到了前台。

这也是为什么我觉得，Project Glasswing 的信号不在“安全”两个字本身，而在它盯上的对象，是 critical software。

这四个词一出来，意思就变了。

它不再是给开发者一个更安心的插件，也不只是告诉你“注意风险”。它更像是在说，AI 已经开始碰最不能出错的软件了，所以要先补一层“信任基础设施”。

AI 在帮你提速，也在把旧问题放大

很多团队其实已经感受到这个拧巴感了。

一边是大家都在用 AI 写代码，没人想掉队。另一边是越用越发现，流程里最慢的部分不是生成，而是确认。

你得确认它没乱引依赖。

你得确认它没越过权限边界。

你得确认它改动的东西能被追溯。

你还得确认，今天这次“看起来没问题”的自动化，明天不会在某个边角条件下把事故放大十倍。

这就是 AI coding 很反直觉的一点。它表面上在帮团队减少机械劳动，实际上却在逼团队重新定义“可以相信什么”。

<figure><img src=“images/01-compare.png” /><figcaption>AI 把编码变快了，也把验证、追踪和责任链推到了更前面。</figcaption></figure>

以前没有 AI 的时候，代码慢一点，但来源相对稳定，责任链也相对清楚。现在代码可能来自模型、插件、代理、外部仓库、自动修复工具，甚至来自一条你回头都复述不完整的 prompt。

速度快了，来源却更散了。

一旦来源更散，审计、归因、回滚、复盘，这些以前被当成“流程成本”的东西，就会突然变成生死线。

所以我不太把这件事理解成“AI 安全终于被重视了”。更准确一点说，是企业终于发现，AI 真正难接入生产环境的地方，不在能力边界，而在信任边界。

Glasswing 真正在抢的，不是安全赛道，是入口权

为什么是 Anthropic 来做这件事，会让我觉得风向变了？

因为这说明头部模型公司已经不满足于只卖模型能力了。如果 AI coding 的未来只拼谁写得更好，那最后大家会很容易掉进同一种竞争里：模型越来越强，功能越来越像，价格越来越卷。

但如果竞争点变成“谁能进入关键软件流程”，门槛就完全不同了。

那时你卖的不只是生成质量，你卖的是一整套承诺。包括可追溯、可审计、可隔离、可验证，还有出了事之后团队能不能快速定位、快速止损。

这类能力有个特点，很难靠一两个模型 benchmark 说清楚，但它决定了你能不能接进真正高价值、也高风险的系统里。

说白了，下一阶段最值钱的，不是“我能写更多代码”，而是“我写的代码，谁敢真放进生产里”。

这会直接改变 AI coding 的商业格局。因为一旦客户开始为“放心上线”买单，竞争就不只是开发者体验了。它会往平台能力、组织流程、合规能力，甚至供应链治理走。

也就是说，大家以前以为在抢的是程序员桌面。接下来更可能在抢的是企业生产系统的入口。

关键软件最怕的，其实不是写错

很多人一说安全，就会想到漏洞、注入、被黑。这些当然存在。

但关键软件最让团队睡不着的，很多时候不是“写错”，而是“你不知道它到底是怎么进来的”。

比如一个依赖是谁引进来的，一段危险权限是谁默认打开的，一次模型建议为什么在 review 里没被看出来，一处小改动为什么最后牵出了系统级事故。

这些问题可怕的地方在于，它们不是单点故障。它们是信任链断掉之后，整条链都开始变脆。

而 AI 最大的副作用之一，就是它会加快这条链的流动速度。以前一个经验一般的工程师，一天可能只改一点点。现在配上模型、代理、自动补全和自动修复，同样的人一天能推动更多改动，也能更快碰到更危险的边界。

所以“AI 会不会写错”这个问题，其实已经不够用了。

更该问的是，当它写得越来越对、越来越快、越来越像个成熟工程师时，你有没有相应升级自己的验证系统？

如果没有，真正危险的不是模型犯低级错，而是团队会因为它经常表现不错，慢慢放松警惕。

接下来真正值钱的，是一套信任工作流

我现在越来越觉得，AI coding 这波里最容易被低估的，不是模型，而是工作流。

谁能把下面这几件事连起来，谁就更接近下一阶段的护城河。

第一，知道 AI 参与了哪里。

第二，知道这些改动经过了什么验证。

第三，知道哪些系统可以自动放行，哪些必须人工兜底。

第四，知道一旦出事，怎么快速追到源头。

这四件事听起来不性感。可真正决定你能不能把 AI 推进关键软件里的，就是这些不性感的东西。

<figure><img src=“images/02-workflow.png” /><figcaption>默认沙盒、完整日志、最小权限，会慢慢成为 AI 进入关键软件的三道门。</figcaption></figure>

所以如果你现在在团队里推动 AI coding，我会建议先别急着追求“全自动”。

更现实的顺序可能是这样的：先把 AI 参与的范围标出来，再把高风险模块单独分层，再给依赖、权限、审计、回滚这些地方补监控和兜底，最后才是讨论哪些环节真的可以让 AI 放手去做。

很多团队现在的问题，不是 AI 不够强，而是 AI 强得太快，组织里的信任系统没跟上。

我对这件事的判断

如果 Project Glasswing 只是一个公关包装，那它很快就会被下一轮新模型新闻盖过去。

但如果它代表的是头部公司已经开始争“生产信任”这块地盘，那这事的意义就大了。因为这意味着，AI coding 的下一战已经不只是效率战，而是基础设施战。

谁能让企业放心，谁才更有机会留在真正高价值的流程里。

这也是为什么我觉得，接下来程序员和团队最该补的能力，未必是“怎么把 prompt 写更好”，而是怎么在 AI 大规模参与之后，重新设计一套可信的交付系统。

AI 会写代码这件事，大家已经慢慢习惯了。

但 AI 写出来的东西，能不能被关键系统信任，这件事才刚开始。

如果你在团队里推动 AI coding，你现在最担心的是效率不够，还是没人敢为它写出来的代码背锅？

数据来源：Hacker News Front Page 题目“Project Glasswing: Securing critical software for the AI era”、Anthropic 公开动作语境、当日选题评分结果。