正在刊行长文 · Essay
2026-06-04所有内容
随机比特 · Random Bits

4 个月烧光全年预算:Uber 紧急叫停背后的“Token 经济学”危机与架构自救

2026-06-04AI Engineering / Systemsrbits.uk

当所有大厂都在鼓吹“给每个程序员配个 AI Copilot 就能提效 50%”的宏大叙事时,现实的铁拳狠狠地砸了下来。 昨日,彭博社爆出一则在工程圈引发强烈地震的消息:Uber 因为 2026 全年的 AI 预算在短短 4 个月内就被彻底耗尽,被迫紧急对全体研发人员实施了每月 $1500 的 AI 编程工具(如 Cla…

4 个月烧光全年预算:Uber 紧急叫停背后的“Token 经济学”危机与架构自救

当所有大厂都在鼓吹“给每个程序员配个 AI Copilot 就能提效 50%”的宏大叙事时,现实的铁拳狠狠地砸了下来。

昨日,彭博社爆出一则在工程圈引发强烈地震的消息:Uber 因为 2026 全年的 AI 预算在短短 4 个月内就被彻底耗尽,被迫紧急对全体研发人员实施了每月 $1500 的 AI 编程工具(如 Claude Code, GitHub Copilot)算力消耗上限。

这绝不是个例。在此前一天,The Neuron 也独家爆料某企业因为没有设置用量上限,单月就在 Claude API 上烧掉了令人咋舌的 5 亿美金(被称为 Tokenmaxxing 现象)。

陈词滥调的狂欢结束了。我们终于不再讨论“AI 是不是未来的提效神器”,而是要面对一个血淋淋的现实问题:“我们买不起了怎么办?”

但如果仅仅把它看作一个“财务预算管理”问题,那你就错失了作为一个资深架构师的洞察力。在 Agent(智能体)全面接管工作流的今天,Token 消耗失控本质上是一个**“分布式系统的无边界调用”**问题。

用财务行政手段去限制配额,只是扬汤止沸;真正的解药,是用做高可用微服务网关的思路,来重新设计企业的“AI API 流量控制(Token Gateway)”架构。


一、剥洋葱:为什么 Agentic Workflow 如此烧钱?

如果员工仅仅是用 ChatGPT 写写邮件、写写单体函数,几百万美金的预算足够一家万人大厂烧上好几年。那么,钱到底是怎么没的?

答案在于:从“单次补全”到“深度递归”的范式转移

传统的 GitHub Copilot 是一次极其克制的输入:你敲下几个字符,它猜测后面的几十个字符。耗费的 Token 是固定且可控的。

但随着以 Claude Code 为代表的新一代 Agent 工具普及,开启 Auto Mode 后,Agent 进入了“自我迭代(Self-reflection)”的无情循环中:编写代码 -> 运行测试 -> 分析报错 -> 注入新上下文 -> 重新编写。

这就引发了致命的上下文雪球效应(Context Snowballing)

智能体在解决一个顽固报错时,会把前一次尝试的错误代码、终端冗长的报错 Stack Trace、以及它新探索的三个项目文件,全量塞回下一次的 Context Window(上下文窗口)。

我们来做个简单的数学推演: 如果第一轮对话是 10k Tokens,第二轮为了附带历史错误变成了 15k,第三轮变成了 22k…… 如果一个 Agent 陷入了某个隐蔽的类型推导死循环,执行了 15 次重试,总 Token 消耗量不是呈线性增长,而是 $O(N^2)$ 的多项式爆炸。

一个原本只需要几美分的查 Bug 请求,在隐式的重试死循环中,可能在短短喝杯咖啡的时间内,就静默烧掉了你几十甚至上百美金。


二、硬核自救:企业级 AI Gateway 的三重防线设计

面对这种近乎“DDoS 攻击自身钱包”的架构缺陷,企业不能依赖模型厂商大发慈悲(毕竟多消耗 Token 就是他们的营收)。

作为高级架构师,我们必须自己在企业内网和云端大模型之间,搭起一座坚固的防波堤——企业级 AI Gateway

<figure><img src=“images/01-ai-gateway-architecture.png” alt=“企业级 AI Gateway 的三重防线” /></figure>

防线一:智能体熔断器 (Agent Circuit Breaker)

在微服务时代,为了防止级联雪崩,我们发明了 Hystrix 断路器。在 Agent 时代,这个模式同样适用,但判定条件变了。

普通的 API 网关拦截的是 QPS(并发量),而 Agent 网关拦截的应该是**“无效的状态变迁”**。

在网关的拦截层,我们需要对 Agent 连续多轮的对话上下文进行极速分析。如果我们发现 Agent 连续 3 轮提交执行的代码,在 AST(抽象语法树)上的 Diff 小于 5%,或者它提交给终端的报错 Stack Trace 完全重复,网关必须立刻出手,强行阻断连接,返回 429 Too Many Requests

这就像是拔掉了一台陷入死循环的机器人的电源,强制人类介入,彻底根除无效燃烧 Token 的黑洞。

防线二:基于任务熵的动态模型路由 (Dynamic LLM Routing)

让员工在查一个简单的正则表达式,或者让 Agent 补全几行无脑 CRUD 代码时,全都去调用最昂贵、参数量最大的 Opus 4.8 或是 GPT-5.5,这是一种极其恶劣的架构懒惰。

在网关的第二层,我们需要部署一个极其轻量级的“裁判模型(Judge Router)”。

通过动态路由,在不降低实际体感的前提下,整体 Token 开销至少可以被硬生生砍掉 70%。

防线三:非确定性语义缓存 (Semantic Caching)

大模型的输入具有非确定性,这意味着传统的 Redis Key-Value 缓存(基于字符串的精确匹配)命中率几乎为零。员工 A 问“如何居中一个 div”,员工 B 问“帮我把这个 div 放在正中间”,在传统网关看来,这是两个完全不同的烧钱请求。

所以,第三层防线必须是基于向量检索的 Semantic Cache。 网关利用极低成本的 Embedding 模型(例如 text-embedding-3-small),将所有外发的 Query 向量化,并存入内网的向量数据库。

设定一个较高的相似度阈值(例如 Cosine Similarity > 0.95)。当下一次遇到相同意图的请求时,网关直接从内网缓存中返回历史生成过的完美答案。这不仅意味着 零 Token 消耗,更意味着响应延迟从十几秒直接降维到了令人震惊的毫秒级。


三、结语:从“调包侠”到“算力调配师”

很多人看到 Uber 的限额新闻,认为这是 AI 编程普及道路上的巨大倒退。

恰恰相反,这标志着整个行业脱离了毫无理智的 PPT 炒作,正式进入了成熟的工程阵痛期。

在未来的软件工程范式中,“会写一段牛逼的 Prompt”或“会调用大模型的 API”将不再具备任何技术含量。

真正能够拿到百万年薪的高级架构师,是能够在一个由异构云端大模型、端侧开源小模型、向量语义缓存以及熔断器组成的庞杂算力网络中,精准拿捏“成本、延迟与智能边界”,用最低的 Token 代价,换取最高工程 ROI 的**“算力调配师”**。

AI 时代的下半场,拼的不是谁更会用 AI,而是谁更懂架构控制。


随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。