openai jalapeno inference chip

做 AI 应用的人最懂一件事：推理成本是条永远追不上的狗。用户越多，账单越失控。每次模型降价，你觉得有救了——然后用量一涨，总支出比降价前还高。

这个死循环的解法不在定价策略里。有人在往更底层动手。

6 月 24 日，OpenAI 和 Broadcom 联合发布了 Jalapeño——OpenAI 的第一颗定制推理芯片。花九个月设计，工程样片已经在实验室跑 GPT-5.3-Codex-Spark，目标今年底小规模部署。

这颗芯片不做训练，只做推理。它的全部任务，就是把 ChatGPT、Codex、API 背后每天几百亿次模型请求的成本压下来。

大部分报道把这条新闻读成 OpenAI 挑战 NVIDIA 的信号。真正有意思的在另一个方向。

OpenAI 想做的事，跟 Google 2016 年做的、Amazon 后来做的，是同一件——不在选型表上多一个选项，而在成本结构里省掉一笔税。

Google 的 TPU 从 2016 年开始做推理，现在迭代到第六代。TPU 不外卖——Google 靠它让自己的 AI 服务跑得比别人便宜。搜索里每一条 AI 摘要、YouTube 的推荐、Gmail 的自动补全，这些推理量如果全部走市场上买 GPU，Google 的财务账会是另一个样子。

Amazon 同理。Trainium 不外卖，但让 AWS 上跑的 AI 服务在价格上有了对手没法追的底气。

现在 OpenAI 要加入这个名单。它可能是全世界推理量最大的单一实体——从 ChatGPT 到 Codex 到 API 到未来的 agent 产品。这个量级上，推理成本每降 10%，省出来的钱就够养一整个芯片团队。

训练大模型需要极致的灵活性和算力密度——你要跑各种实验、调各种参数，GPU 的通用架构刚好对路。

但推理只跑一个固定的模型，你确切知道计算模式长什么样。这时候，你可以把硬件设计得只为这些模式服务。牺牲通用性，换数倍的单位成本优势。

这就是 ASIC 的逻辑。Google TPU v1 当年在推理能效比上做到通用 GPU 的 2-3 倍，不是因为它更强——是因为它只做了自己需要做的那件事。

Broadcom CEO Hock Tan 说过，来自六家大客户的算力需求"简直无法满足"，而且不只是 26、27 年，28 年的需求还在继续涨。“就是远远超出我们的供应能力。”

需求远大于供给。OpenAI 不是"要不要"自己造——是再不自己造，算力缺口就会卡住增长。

这件事有足够多需要冷静的地方。

性能数据全是自报的。“substantially better than current state-of-the-art”——跟哪一代 GPU 比的？什么负载？功耗怎么算？都不知道。第一代芯片几乎一定有问题。

九个月的开发周期，没人讲清楚是从概念开始算还是从 RTL 冻结开始算。前者是"极快"，后者是"正常"。差别很大。

而且 NVIDIA 不会停在原地。Vera Rubin 今年下半年就要大规模出货，预计推理能效比目前的 Blackwell 提升 10 倍。Jalapeño 真正上量可能要到 2027 甚至 2028 年，到那时候比较对象又变了一代。

还有一个往往被忽略的细节：Broadcom 要求微软承诺买走 40% 的产量才肯接这个单。自研芯片的前提是——你的用量必须足够大，大到台积电和 HBM 内存供应商愿意为你排产。这个门槛本身，就筛掉了绝大多数想走这条路的公司。

但所有这些问题指向的，是"难"，不是"方向不对"。

推理成本是结构性成本。你不做芯片，就永远留一笔税在那。Google 交了八年之后不交了，Amazon 也不交了。OpenAI 刚开始不交。

这不止是省钱。是有不交的选择之后，看问题的维度会变。

以后看一家模型公司，除了看 benchmark、看人才密度、看产品迭代速度，还得多看一眼：它有没有自己的推理芯片。

有，意味着它的成本结构对手追不上——它能定更低的价抢你用户，或者定同样的价跑更大的模型把你挤下去，或者定同样的价赚更多钱继续砸研发。

没有，意味着它每次降价都是在烧投资人的钱，而对手是在烧自己的芯片。

这不是同一场比赛。