每次调 API，后面其实都有两个模型在跑

两个模型

你调 DeepSeek API 的时候，后面其实一直有两个模型在跑。一个大模型，一个小模型。大模型不自己逐字算——它拿小模型先猜好的一串候选 token，从头开始审。猜对的直接过，第一个猜错的就扔掉后面全部，大模型自己补上。

这个过程在学术圈里叫推测解码。名字唬人，逻辑简单：用低成本"猜"替代高成本"算"。

01-two-models

半个世纪前 CPU 就在玩同一套

1993 年，奔腾处理器第一次把分支预测做进了大众市场。CPU 不等前面指令算完，先猜下一条走 if 还是 else，流水线照常跑。猜错了，冲掉错误路径上的中间结果，从正确地址重新取。到奔腾 Pro，乱序执行补上了更激进的一步——连"哪条指令先算完"都不等了，后面的指令只要不依赖前面的结果就先投机执行，算完暂存着，等前面确认了再按正确顺序提交。

半个世纪，“猜+验"这套方法论在 CPU 里被证明是正确的，甚至是唯一正确的。现在它移植到了 LLM 推理上，赌注从"下一条指令走哪条分支"换成了"下一个 token 是什么”。

同一个套路，CPU 用了几十年。区别只有一个：CPU 里的分支预测器和乱序引擎是 Intel/AMD 焊死在硅片上的，你换不了。但 LLM 推理里负责猜的那个小模型，是可以换的。

草稿模型的归属权

DeepSeek 把 DSpark 的草稿模型 checkpoint 放在了 HuggingFace 上。训练代码（DeepSpec）也开源了，里面不光有 DSpark，还有 DFlash 和 Eagle3 两个竞争方案的完整实现。一份训练配方：130 万条 prompt，Qwen3 系列做目标模型，10 个 epoch——你可以拿自己的数据照跑。

以前调 API，推理管线的最后一步——用什么草稿模型、怎么训、怎么调度——全在厂商机房里，你看不到。DeepSeek 是第一个把这一步拆出来、放上桌面的厂商。

而且它是真的在生产环境里跑了才开源的。根据他们论文里的数据，DSpark 上线后，在相同吞吐量下，V4-Flash 每用户生成速度提升了 60% 到 85%，V4-Pro 提升了 57% 到 78%。在一个严格限时（比如 120 tok/s/user）的场景下，老的基线几乎撑不住并发，而 DSpark 把存活区间硬生生撑开了。

这件事的后果不是"推理加速了"，是你开始有了选择——你能自己训练草稿模型、针对自己的业务场景调优、甚至给不同用例配不同的小模型。

推理管线的架构权，第一次从厂商机房往外移了一步。

AI 不会写内核，但很会投机

这周同时发生了另一件事。ParallelKernelBench 测了 87 个真实的多 GPU CUDA 内核任务——让 AI 从 PyTorch + NCCL 出发，写出能直接走 NVLink 通信的高性能内核。

结果硬得很：最强模型（GPT-5.5）87 个任务只解了 28 个，其中只有 22 个比 PyTorch 基线更快。给它编译反馈多试几轮，最多 35 个正确、26 个更快——快解率不到 31%。

AI 写不出高效多 GPU 内核的原因也不复杂：多 GPU 通信需要理解拓扑、同步语义、流水线编排，模型在这块几乎没见过训练数据；出了问题不会 debug，给反馈也最多改改语法错误和 shape 不匹配。

但你往回看一层，AI 在做推理加速这件事上用的招，本质上就是投机执行——和 CPU 的分支预测一模一样。它不会写 NVLink 上的 all-reduce 内核，但它会在推理时用一个小模型把你每轮验证能吃的 token 数从 5 个拉到 6 个，延迟砍掉一半。

我读这两件事放在一起的感受是：底层硬优化仍然卡在人手里，但上层的投机策略已经有成熟可换的零件了。

下次聊推理成本，换个问题

之前我把推理服务切到 DeepSeek 的时候，只看了两个数：每百万 token 多少钱，首 token 延迟多少。跟大部分人的比价逻辑一样。

现在我多了一个问题：草稿模型怎么训的，我能换自己的吗。

这个问题比"你用什么 GPU"更管用。GPU 决定的是物理上限，草稿模型的归属权和实现水平决定你能拿到上限的多少。

翻一下论文里的数据就清楚。Qwen3-4B 做目标模型，DSpark 在数学推理上的 average accepted length 是 6.11——大模型每验一次平均吃进 6 个 token。纯自回归草稿（Eagle3）是 5.14，纯并行草稿（DFlash）是 5.40。差出来的这个 token，就是架构设计和训练投入换出来的。而且差距随模型变大而拉大——Qwen3-14B 上 DSpark 比 Eagle3 领先 30%。

前沿模型只会越来越贵。模型越贵，猜对一个 token 的价值越大。推测解码给你省下的钱，和模型本体的推理成本成正比。

当然这不是免费午餐。草稿模型本身也要吃算力，对于那些天然低接受率的请求（比如开放聊天），这份开销等于白扔了。论文自己也提了这一点——这是 DSpark 目前最大的局限。但这件事的框架意义比单个算法重要：它说明推理加速的竞争，已经从"谁有更好的 GPU"进入了"谁的草稿模型更聪明"。

草稿模型的归属权，正在变成 API 厂商之间一道新的技术围墙——同时也是部署侧第一次能伸手推一推这道墙。