正在刊行长文 · Essay
2026-06-23所有内容
随机比特 · Random Bits

修得比谁都快,欠得比谁都多——安全瓶颈已经倒过来了

2026-06-23AI Engineering / Systemsrbits.uk

上个月翻到 HackerOne 一份数据,同一个数字看了三遍才敢信:去年漏洞修复中位时间降了 70%,但每个月修掉的漏洞总数反而降了 46%。验收过的漏洞积压涨了 21 倍,其中高危的涨了 25 倍。

修得比谁都快,欠得比谁都多。不是什么团队偷懒,是管线断了。

断在哪不难推。AI 把漏洞发现成本打到了地板以下——平台全年提报量涨了 76%。但修复侧没变过。一个团队能同时处理多少漏洞,不取决于单件修得多快,取决于修复管线本身的设计上限。旧管线默认"发现是瓶颈",所以整个流程围着找到漏洞以后怎么分派、怎么排期、怎么验收来搭。当发现的洪水冲过这条管线的设计容量,再快的单件修复也只是在更高效地搬运积压。

<!-- diagram:bottleneck-shift -->

OpenAI 昨天发的 Daybreak 产品线,真正在回应的就是这个——不是又多了一个安全工具,是安全工程的工作方式需要一次重设计。

从扫描到修复:管线倒过来了

Daybreak 不是一个更强的漏洞扫描器。它是一组把"发现→验证→修复"揉进同一个工作流的产品。

Codex Security 现在能做威胁建模、攻击路径追踪、补丁生成和验证。不是告诉你"第 47 行有个 SQL 注入"就结束了——它把修复代码写出来、在后台跑过验证,然后问你要不要合。过去一年内部扫了 3000 万次 commit、覆盖 3 万个代码库,人工审核员标记了 7 万条修复,另有 50 万条系统自动判定已修复。

GPT-5.5-Cyber 是个专门为安全场景训练的模型。CyberGym 基准拿了 85.6%,比标准 GPT-5.5 的 81.8% 高了近 4 个百分点。这 4 个点放在安全场景里,意味着漏掉的高危判定少了近四分之一——专用安全模型跟通用模型之间的差距,第一次大到值得单开一条产品线。

但真正该注意的不是这些数字。是 OpenAI 把 Daybreak 的定位从"帮你找"换成了"帮你修"。这句话以前厂商也说过。区别在于,以前这句话的意思是多扫几条规则出来,这次的意思是把修复写出来、验证好、等你合。

定位从上游换到下游,不是营销换了个说法,是管线瓶颈从上游移到了下游。

OSS 维护者不用再扛了

Daybreak 里还有个容易被当成公关动作的部分:Patch the Planet。

细看参与方和设计,不是。合作方是 Trail of Bits——安全审计领域做了十几年硬核服务的团队,和 HackerOne——管漏洞生命周期管了十多年的平台。首批 30 多个开源项目里有 curl、Go、Python、Sigstore、pyca/cryptography。共同点:使用面极广,维护者一只手数得过来,被未验证的漏洞报告淹没是日常。

Patch the Planet 的运作模式跟传统赏金计划反着来。旧模式:找到漏洞→领赏→维护者自己修。新模式:Codex 辅助研究→人类专家验证→生成补丁→走项目正常 review 流程合入。维护者不用自己写修复,甚至不用自己判断报告是真是假。HackerOne 的博文里写了句狠话:我们不按报告数量计成功,我们按从软件里移除的风险量来计。

还有一个被很多人忽略的细节:钱是 OpenAI 出的。成本不压在维护者身上。一个 curl 维护者被一百个未经验证的漏洞报告淹没时,没人付钱让他去修。现在有人付钱让人修好了送过来。

这不是"好心人帮开源修 bug"。这是安全资源分配逻辑的一次翻转:把修复成本从最没钱的那群人身上,转移到最有动力证明自己产品有用的那群人身上。这一步走通了,安全工具的采购模型都会跟着变——不是买扫描器看报告,是买一个能把报告变成合入代码的服务。

但攻击侧也在提速

同一天,五眼情报联盟发了警告:AI 可能在未来几个月重塑进攻性网络作战。措辞很克制,但"未来几个月"这个时间窗口很紧。

安全行业最残酷的对称性就在这里:你刚把防御侧管线修好,攻击侧的工具链在同等速度进化。AI 能帮防御者找漏洞,也能帮攻击者找。区别在于,攻击者只需要一条路,防御者需要守住所有路。

把 Daybreak 和五眼警告放在一起看,这一天的信号比 “OpenAI 发了新品” 要重得多。不是老生常谈的 “AI 来了安全怎么办”,而是攻防两侧同时触碰了一个临界点:自动化从辅助变成了主干。谁的主干跑得快,不取决于谁的 AI 模型更强,取决于谁的安全管线设计更适配 AI 的速度。

安全工具该怎么买,该怎么做

怎么判断一个安全工具是真能用还是又一个 demo,标准很简单:看它是帮你找到更多问题,还是帮你解决更多问题。

前者已经不算什么了。HackerOne 五月把 GPT-5.5、Claude Opus 4.7 和 Sonnet 4.6 一起拉出来跑漏洞验证,连没调过的通用 agent 准确率全在 80% 以上。发现能力趋于平价,不能再当卖点了。

后者的门槛高得多。修复不止是生成一段正确的代码。它要理解这个修复会不会在别的路径引入回归,判断要不要做架构级改动,跑通 CI/CD 和测试套件,还要说服 code reviewer 这个改动是安全的。这些事需要的不只是模型能力,是跟整个开发生命周期咬合的产品设计。

Codex Security 那 50 万条自动判定已修复,跟"让 GPT 生成一个 patch"的本质区别就在这里。前者是带着验证的工程化交付,后者是文本生成。差距不在准确率的几个百分点,在能不能把"发现→修复→上线"从一个需要三五个角色接力的事情,压缩成一件可以被持续集成的工序。

三星在 Daybreak 发布当天宣布向全球员工部署 ChatGPT Enterprise 和 Codex。这个信号比任何 benchmark 都实在——当一个年出货两亿多台设备、供应链横跨几十个国家的制造巨头,把 AI 安全工具当基础设施采购的时候,"产品化"就不是厂商自说自话了。

对一线开发者来说,安全工具的角色正在从告警灯变成自动门。不只是告诉你哪里有问题,还帮你把问题关掉。你的工作从"接到 ticket → 放下手上的活 → 排查 → 修 → 等 review → 上线",变成"review 一个 AI 生成的修复 → 觉得没问题就合"。流程没少,但你的角色从修理工变成了质检员。

这事跟喜不喜欢 AI 没关系。跟管线能不能扛住发现速度有关系。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。