AI 做的页面总有股「AI 味」，我给它喂了几张截图，味儿就散了

你大概也有过这种感觉：让模型生成一个落地页，它给你的东西"挑不出大毛病，但一眼就知道是 AI 做的"。配色规规矩矩，圆角、渐变、卡片三件套齐活，标题居中、副标题灰一号，该有的都有——可它就是没有"一个人在乎过这个页面"的痕迹。精致，通用，假。

遇到这股「AI 味」，大多数人第一反应是两个：要么回去把 prompt 再改一遍，加上"高级感"“现代设计”"专业排版"这类形容词；要么干脆认定模型不行，盘算着是不是该上更贵的那个。这两条路我都走过，结论是基本没用——形容词喂进去，它还是输出平均款，只是平均款上更用力地糊了一层"高级感"的塑料质感。

最近一组挺干净的对照实验，正好把这件事戳穿了。

有人让两个模型——一个开源的 Kimi K2.7 Code，一个闭源的 Claude Fable 5——用同一批 prompt 各做 12 个落地页，品类铺得很杂：B2B SaaS 工具、把 SQL 查询转成图表的开发者工具、屋顶酒吧、独立书店、香水……再用 GPT-5.5 给截图和源码按 0 到 100 打分。

结论里最反直觉的一点：只给文字 prompt 时，两个模型做出来的都"一眼 AI 生成"。不是便宜那个丑、贵那个好看——是两个都假。贵的那个分数普遍高几分（独立书店 95 比 89，睡眠 app 92 比 80），但那几分买的是"完成度更高的平均款"，不是"不像 AI 做的"。换更贵的模型，没解决你最在意的那个问题。

真正让页面变样的是另一件事：他们搭了个小服务，把"优秀页面长什么样"的截图、还有一些现成 UI 元素，当成视觉参考直接喂给模型——Kimi 是多模态的，能看图。就这一个动作，那个屋顶酒吧页面前后判若两物：之前是"认得出是 AI 生成"的通用布局，之后排版立刻可读了，层级出来了，构图开始像"有人想让它长这样"，而不是"模型把元素摆满"。

这就是我想说的那件事。你嫌弃的「AI 味」，根上不是模型审美差，是它从没见过你心里那张"好看的样子"。 你只给文字，它就只能从训练数据那片广袤的平均值里采样——精致、安全、谁都不得罪、也谁都打动不了。你把三五张好设计的截图拍在它面前，它当场就知道"好"是什么形状：间距该多大、对比该多强、留白留在哪、信息怎么排层级。它不缺创意，缺的是你递给它那张"我要这种感觉"的图。

成本这边顺带提一句：同一个 B2B SaaS 页面，便宜那个花了 4 美分，贵那个 1.09 美元，差约 27 倍；做设计你很少只生成一版，这倍数还会滚雪球。所以账很清楚——把预算和注意力从"换更贵的模型"挪到"喂更对的参考图"，性价比根本不在一个量级。

但我不想把它写成一句爽口号，因为数据里有处不那么顺的地方，反而更值得记。喂参考图不是稳赚的开关。对那个便宜模型，有几个页面喂图之后分数不升反降——架构页从 88 掉到 79，香水页从 88 掉到 83。原因不难猜：图选得不对路，或风格跟页面要传达的东西打架，等于递了张"不搭"的图，把它往沟里带。

所以更准确的说法不是"喂图就灵"，是**“喂对的图才灵”**。这恰恰印证了同一件事：决定产出的是你递进去那张参考的质量，不是模型的参数。参考对了，便宜模型也追得上；参考错了，再贵的模型也救不回——因为问题从来不在模型那一端。

下次再嫌 AI 做的东西"差点意思"，先别急着改第十遍 prompt，也别急着开更贵的模型。打开收藏夹里那几个你真心觉得好看的页面，截几张图，连同要求一起递进去。你给它看过的好东西越具体，它还你的「AI 味」就越淡。模型这两年涨的是能力天花板，而你产出的地板，一直握在自己手里——握着的，就是你肯不肯先让它看一眼"好"长什么样。