做 AI 应用的人最懂一件事:推理成本是条永远追不上的狗。用户越多,账单越失控。每次模型降价,你觉得有救了——然后用量一涨,总支出比降价前还高。
这个死循环的解法不在定价策略里。有人在往更底层动手。
6 月 24 日,OpenAI 和 Broadcom 联合发布了 Jalapeño——OpenAI 的第一颗定制推理芯片。花九个月设计,工程样片已经在实验室跑 GPT-5.3-Codex-Spark,目标今年底小规模部署。
这颗芯片不做训练,只做推理。它的全部任务,就是把 ChatGPT、Codex、API 背后每天几百亿次模型请求的成本压下来。
少一笔税
大部分报道把这条新闻读成 OpenAI 挑战 NVIDIA 的信号。真正有意思的在另一个方向。
OpenAI 想做的事,跟 Google 2016 年做的、Amazon 后来做的,是同一件——不在选型表上多一个选项,而在成本结构里省掉一笔税。
Google 的 TPU 从 2016 年开始做推理,现在迭代到第六代。TPU 不外卖——Google 靠它让自己的 AI 服务跑得比别人便宜。搜索里每一条 AI 摘要、YouTube 的推荐、Gmail 的自动补全,这些推理量如果全部走市场上买 GPU,Google 的财务账会是另一个样子。
Amazon 同理。Trainium 不外卖,但让 AWS 上跑的 AI 服务在价格上有了对手没法追的底气。
现在 OpenAI 要加入这个名单。它可能是全世界推理量最大的单一实体——从 ChatGPT 到 Codex 到 API 到未来的 agent 产品。这个量级上,推理成本每降 10%,省出来的钱就够养一整个芯片团队。
训练和推理,本来就是两笔不同的生意
训练大模型需要极致的灵活性和算力密度——你要跑各种实验、调各种参数,GPU 的通用架构刚好对路。
但推理只跑一个固定的模型,你确切知道计算模式长什么样。这时候,你可以把硬件设计得只为这些模式服务。牺牲通用性,换数倍的单位成本优势。
这就是 ASIC 的逻辑。Google TPU v1 当年在推理能效比上做到通用 GPU 的 2-3 倍,不是因为它更强——是因为它只做了自己需要做的那件事。
Broadcom CEO Hock Tan 说过,来自六家大客户的算力需求"简直无法满足",而且不只是 26、27 年,28 年的需求还在继续涨。“就是远远超出我们的供应能力。”
需求远大于供给。OpenAI 不是"要不要"自己造——是再不自己造,算力缺口就会卡住增长。
方向对的,第一代不一定对
这件事有足够多需要冷静的地方。
性能数据全是自报的。“substantially better than current state-of-the-art”——跟哪一代 GPU 比的?什么负载?功耗怎么算?都不知道。第一代芯片几乎一定有问题。
九个月的开发周期,没人讲清楚是从概念开始算还是从 RTL 冻结开始算。前者是"极快",后者是"正常"。差别很大。
而且 NVIDIA 不会停在原地。Vera Rubin 今年下半年就要大规模出货,预计推理能效比目前的 Blackwell 提升 10 倍。Jalapeño 真正上量可能要到 2027 甚至 2028 年,到那时候比较对象又变了一代。
还有一个往往被忽略的细节:Broadcom 要求微软承诺买走 40% 的产量才肯接这个单。自研芯片的前提是——你的用量必须足够大,大到台积电和 HBM 内存供应商愿意为你排产。这个门槛本身,就筛掉了绝大多数想走这条路的公司。
但所有这些问题指向的,是"难",不是"方向不对"。
推理成本是结构性成本。你不做芯片,就永远留一笔税在那。Google 交了八年之后不交了,Amazon 也不交了。OpenAI 刚开始不交。
这不止是省钱。是有不交的选择之后,看问题的维度会变。
以后看一家模型公司,除了看 benchmark、看人才密度、看产品迭代速度,还得多看一眼:它有没有自己的推理芯片。
有,意味着它的成本结构对手追不上——它能定更低的价抢你用户,或者定同样的价跑更大的模型把你挤下去,或者定同样的价赚更多钱继续砸研发。
没有,意味着它每次降价都是在烧投资人的钱,而对手是在烧自己的芯片。
这不是同一场比赛。