Together AI 实测：Kimi K2.7 Code 生成落地页，成本比 Claude Fable 5 低 94%，质量几乎持平。

去年有个朋友在用 Claude Code 做 side project，月账单一直稳定在 $200 上下。他跟我说过一句话：不是没想过换便宜的模型，是不敢——“万一质量掉一截，改 bug 的时间比省的钱还多。”

这个账，是时候重算了。

Together AI 最近做了一组实验：用 Kimi K2.7 Code 和 Claude Fable 5 各生成 12 个落地页，涵盖 B2B SaaS、屋顶鸡尾酒吧、开发者工具三种不同类型，从成本和质量两个维度做直接对比。

数字是这样的：Kimi 平均每页成本比 Fable 低 94%。换算一下，差不多便宜 16 倍。其中最夸张的一个 B2B SaaS 落地页，Kimi 花了 4 美分，Fable 花了 $1.09——差了 27 倍。

4 美分生成一个能用的落地页。这个数字本身就说明一些事情了。

但成本只是这个故事的表层。真正值得注意的，是质量对比里藏着的那个拐点。

实验的起点是"裸 prompt"——直接告诉模型"给我做一个 SQL 转图表的开发者工具落地页"。结果两个模型产出的东西都不太行，一眼 AI 味，排版生硬，视觉语言像模板拼接。

然后实验者做了一件事：给模型接入了一个 Design MCP 服务器，把精心设计的落地页截图、UI 组件参考、排版范例喂给模型当上下文。

质量就变了。不是小幅改善，是"从没法用到能拿给客户看"的跃迁。

这里藏着一个被大多数人低估的事实：对生成落地页这类任务，模型能力的差异远小于上下文的差异。给够设计参考之后，Kimi 和 Fable 的评分差距缩到了个位数——12 个页面里，Fable 平均只高出 5 到 6 分。SQL 转图表工具那一页甚至完全打平，同为 86 分。最高分差也不过 9 分。

这 5-6 分值不值得多付 16 倍的价格？取决于你在干什么。

如果你在做一个需要极致设计品质的品牌官网，那几分差距可能值这个钱。但如果你在做的是生成 100 个变体、挑 5 个好的继续迭代——这是大多数生成式编码 agent 的真实工作流——那 16 倍价差意味着：用 Kimi 跑 100 页花大概 $4，用 Fable 花 $100。

这里有一个判断锚点可以带走：不是"开源模型能不能替代闭源模型"，而是"你的任务在这个模型上，一块钱能买多少有效输出"。

对落地页生成，Kimi 一块钱买到的有效输出目前大概是 Fable 的 16 倍。对代码审查可能不是这个数，对复杂架构设计又可能是另一个数。

这个判断框架比"开源好还是闭源好"有用得多。后者是宗教问题，前者是工程问题。

还有一个容易被忽略的细节：Kimi K2.7 Code 是多模态的，能把设计截图直接放进 prompt，而 Fable 在这个实验里没有用到同等多模态能力。这不公平吗？不，这恰恰是重点——工具链和上下文姿势，比模型品牌重要。 你给模型配了什么工具、怎么喂上下文，对最终产出的影响可能大过你选哪个模型。

回到开头那个朋友的账。

如果他的 side project 里有相当一部分任务是"生成前端页面、落地页、营销组件"这类结构相对固定的编码工作，把其中 70% 切到开源模型，月账单大概能从 $200 降到 $30 以下。而那 30% 保留在闭源旗舰上的任务——复杂调试、架构设计、需要深度推理的部分——质量不受影响。

这不是"全面迁移"的建议。这是"分别算账"的建议。

"贵就是好"曾经是省事的默认选择。但当开源模型在真实任务上已经追到差几分、价格差 16 倍的阶段，继续默认选贵的就不再是省事——是懒。

开发者最核心的能力从来不是选对工具，是在正确的场景用正确的工具。这个原则以前只适用于框架和库，现在也适用于模型。