← 随机比特 / 所有内容

Anthropic 推出 Project Glasswing,不只是要让 AI 更会写代码,而是要让关键软件在 AI 时代还能被信任地接入生产环境。

2026-04-08 · 随机比特

AI 写代码越来越强,为什么关键软件反而更难被信任?

这两天我看到 Anthropic 推出 Project Glasswing,第一反应不是“又来一个 AI 安全项目”。

我更在意的是,它把一个原本藏在工程团队内部的问题,直接摆到台面上了。

AI 写代码越来越快,越来越像一个能干的同事。可越是这样,企业越会卡在另一件事上:这段代码,到底敢不敢上线。

这就是我觉得 Glasswing 值得聊的原因。

它说明 AI coding 的竞争,可能已经开始换赛道了。以前大家比的是谁写得更快,谁补全更顺,谁更像全能工程师。接下来比的,可能是谁更能让你放心把关键系统交给它。

真正的难点,从来不是“写出来”

很多人聊 AI 写代码,还停在一个比较初级的问题上。

<figure><img src=“images/compare.png” alt=“compare”></figure>

比如它会不会取代程序员,能不能把 PR 自动提出来,能不能把一个页面一次写完。这些当然重要。但如果你真的在生产环境里干过活,你会知道,最贵的从来不是“写出来”,最贵的是出事之后谁负责。

关键软件不是 demo,也不是内部脚本。它可能连着支付、身份、权限、审计、供应链,也可能连着医院、金融、电网、政府系统,或者公司最核心的数据流。

在这些场景里,AI 每多写一行代码,效率是涨了,风险面也一起涨了。说白了,AI 把“编码”这件事做便宜了,但它也把“验证、追踪、背锅”这几件事推到了前台。

这也是为什么我觉得,Project Glasswing 的信号不在“安全”两个字本身,而在它盯上的对象,是 critical software。

这四个词一出来,意思就变了。

它不再是给开发者一个更安心的插件,也不只是告诉你“注意风险”。它更像是在说,AI 已经开始碰最不能出错的软件了,所以要先补一层“信任基础设施”。

AI 在帮你提速,也在把旧问题放大

很多团队其实已经感受到这个拧巴感了。

一边是大家都在用 AI 写代码,没人想掉队。另一边是越用越发现,流程里最慢的部分不是生成,而是确认。

<figure><img src=“images/workflow.png” alt=“workflow”></figure>

你得确认它没乱引依赖。

你得确认它没越过权限边界。

你得确认它改动的东西能被追溯。

你还得确认,今天这次“看起来没问题”的自动化,明天不会在某个边角条件下把事故放大十倍。

这就是 AI coding 很反直觉的一点。它表面上在帮团队减少机械劳动,实际上却在逼团队重新定义“可以相信什么”。

<figure><img src=“images/01-compare.png” /><figcaption>AI 把编码变快了,也把验证、追踪和责任链推到了更前面。</figcaption></figure>

以前没有 AI 的时候,代码慢一点,但来源相对稳定,责任链也相对清楚。现在代码可能来自模型、插件、代理、外部仓库、自动修复工具,甚至来自一条你回头都复述不完整的 prompt。

速度快了,来源却更散了。

一旦来源更散,审计、归因、回滚、复盘,这些以前被当成“流程成本”的东西,就会突然变成生死线。

所以我不太把这件事理解成“AI 安全终于被重视了”。更准确一点说,是企业终于发现,AI 真正难接入生产环境的地方,不在能力边界,而在信任边界。

Glasswing 真正在抢的,不是安全赛道,是入口权

为什么是 Anthropic 来做这件事,会让我觉得风向变了?

因为这说明头部模型公司已经不满足于只卖模型能力了。如果 AI coding 的未来只拼谁写得更好,那最后大家会很容易掉进同一种竞争里:模型越来越强,功能越来越像,价格越来越卷。

但如果竞争点变成“谁能进入关键软件流程”,门槛就完全不同了。

那时你卖的不只是生成质量,你卖的是一整套承诺。包括可追溯、可审计、可隔离、可验证,还有出了事之后团队能不能快速定位、快速止损。

这类能力有个特点,很难靠一两个模型 benchmark 说清楚,但它决定了你能不能接进真正高价值、也高风险的系统里。

说白了,下一阶段最值钱的,不是“我能写更多代码”,而是“我写的代码,谁敢真放进生产里”。

这会直接改变 AI coding 的商业格局。因为一旦客户开始为“放心上线”买单,竞争就不只是开发者体验了。它会往平台能力、组织流程、合规能力,甚至供应链治理走。

也就是说,大家以前以为在抢的是程序员桌面。接下来更可能在抢的是企业生产系统的入口。

关键软件最怕的,其实不是写错

很多人一说安全,就会想到漏洞、注入、被黑。这些当然存在。

但关键软件最让团队睡不着的,很多时候不是“写错”,而是“你不知道它到底是怎么进来的”。

比如一个依赖是谁引进来的,一段危险权限是谁默认打开的,一次模型建议为什么在 review 里没被看出来,一处小改动为什么最后牵出了系统级事故。

这些问题可怕的地方在于,它们不是单点故障。它们是信任链断掉之后,整条链都开始变脆。

而 AI 最大的副作用之一,就是它会加快这条链的流动速度。以前一个经验一般的工程师,一天可能只改一点点。现在配上模型、代理、自动补全和自动修复,同样的人一天能推动更多改动,也能更快碰到更危险的边界。

所以“AI 会不会写错”这个问题,其实已经不够用了。

更该问的是,当它写得越来越对、越来越快、越来越像个成熟工程师时,你有没有相应升级自己的验证系统?

如果没有,真正危险的不是模型犯低级错,而是团队会因为它经常表现不错,慢慢放松警惕。

接下来真正值钱的,是一套信任工作流

我现在越来越觉得,AI coding 这波里最容易被低估的,不是模型,而是工作流。

谁能把下面这几件事连起来,谁就更接近下一阶段的护城河。

第一,知道 AI 参与了哪里。

第二,知道这些改动经过了什么验证。

第三,知道哪些系统可以自动放行,哪些必须人工兜底。

第四,知道一旦出事,怎么快速追到源头。

这四件事听起来不性感。可真正决定你能不能把 AI 推进关键软件里的,就是这些不性感的东西。

<figure><img src=“images/02-workflow.png” /><figcaption>默认沙盒、完整日志、最小权限,会慢慢成为 AI 进入关键软件的三道门。</figcaption></figure>

所以如果你现在在团队里推动 AI coding,我会建议先别急着追求“全自动”。

更现实的顺序可能是这样的:先把 AI 参与的范围标出来,再把高风险模块单独分层,再给依赖、权限、审计、回滚这些地方补监控和兜底,最后才是讨论哪些环节真的可以让 AI 放手去做。

很多团队现在的问题,不是 AI 不够强,而是 AI 强得太快,组织里的信任系统没跟上。

我对这件事的判断

如果 Project Glasswing 只是一个公关包装,那它很快就会被下一轮新模型新闻盖过去。

但如果它代表的是头部公司已经开始争“生产信任”这块地盘,那这事的意义就大了。因为这意味着,AI coding 的下一战已经不只是效率战,而是基础设施战。

谁能让企业放心,谁才更有机会留在真正高价值的流程里。

这也是为什么我觉得,接下来程序员和团队最该补的能力,未必是“怎么把 prompt 写更好”,而是怎么在 AI 大规模参与之后,重新设计一套可信的交付系统。

AI 会写代码这件事,大家已经慢慢习惯了。

但 AI 写出来的东西,能不能被关键系统信任,这件事才刚开始。

如果你在团队里推动 AI coding,你现在最担心的是效率不够,还是没人敢为它写出来的代码背锅?

数据来源:Hacker News Front Page 题目“Project Glasswing: Securing critical software for the AI era”、Anthropic 公开动作语境、当日选题评分结果。