去年有个朋友在用 Claude Code 做 side project,月账单一直稳定在 $200 上下。他跟我说过一句话:不是没想过换便宜的模型,是不敢——“万一质量掉一截,改 bug 的时间比省的钱还多。”
这个账,是时候重算了。
Together AI 最近做了一组实验:用 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页,涵盖 B2B SaaS、屋顶鸡尾酒吧、开发者工具三种不同类型,从成本和质量两个维度做直接对比。
数字是这样的:Kimi 平均每页成本比 Fable 低 94%。换算一下,差不多便宜 16 倍。其中最夸张的一个 B2B SaaS 落地页,Kimi 花了 4 美分,Fable 花了 $1.09——差了 27 倍。
4 美分生成一个能用的落地页。这个数字本身就说明一些事情了。
<!-- diagram:cost-comparison -->
但成本只是这个故事的表层。真正值得注意的,是质量对比里藏着的那个拐点。
实验的起点是"裸 prompt"——直接告诉模型"给我做一个 SQL 转图表的开发者工具落地页"。结果两个模型产出的东西都不太行,一眼 AI 味,排版生硬,视觉语言像模板拼接。
然后实验者做了一件事:给模型接入了一个 Design MCP 服务器,把精心设计的落地页截图、UI 组件参考、排版范例喂给模型当上下文。
质量就变了。不是小幅改善,是"从没法用到能拿给客户看"的跃迁。
这里藏着一个被大多数人低估的事实:对生成落地页这类任务,模型能力的差异远小于上下文的差异。给够设计参考之后,Kimi 和 Fable 的评分差距缩到了个位数——12 个页面里,Fable 平均只高出 5 到 6 分。SQL 转图表工具那一页甚至完全打平,同为 86 分。最高分差也不过 9 分。
这 5-6 分值不值得多付 16 倍的价格?取决于你在干什么。
如果你在做一个需要极致设计品质的品牌官网,那几分差距可能值这个钱。但如果你在做的是生成 100 个变体、挑 5 个好的继续迭代——这是大多数生成式编码 agent 的真实工作流——那 16 倍价差意味着:用 Kimi 跑 100 页花大概 $4,用 Fable 花 $100。
这里有一个判断锚点可以带走:不是"开源模型能不能替代闭源模型",而是"你的任务在这个模型上,一块钱能买多少有效输出"。
对落地页生成,Kimi 一块钱买到的有效输出目前大概是 Fable 的 16 倍。对代码审查可能不是这个数,对复杂架构设计又可能是另一个数。
这个判断框架比"开源好还是闭源好"有用得多。后者是宗教问题,前者是工程问题。
还有一个容易被忽略的细节:Kimi K2.7 Code 是多模态的,能把设计截图直接放进 prompt,而 Fable 在这个实验里没有用到同等多模态能力。这不公平吗?不,这恰恰是重点——工具链和上下文姿势,比模型品牌重要。 你给模型配了什么工具、怎么喂上下文,对最终产出的影响可能大过你选哪个模型。
回到开头那个朋友的账。
如果他的 side project 里有相当一部分任务是"生成前端页面、落地页、营销组件"这类结构相对固定的编码工作,把其中 70% 切到开源模型,月账单大概能从 $200 降到 $30 以下。而那 30% 保留在闭源旗舰上的任务——复杂调试、架构设计、需要深度推理的部分——质量不受影响。
这不是"全面迁移"的建议。这是"分别算账"的建议。
"贵就是好"曾经是省事的默认选择。但当开源模型在真实任务上已经追到差几分、价格差 16 倍的阶段,继续默认选贵的就不再是省事——是懒。
开发者最核心的能力从来不是选对工具,是在正确的场景用正确的工具。这个原则以前只适用于框架和库,现在也适用于模型。