你大概也有过这种感觉:让模型生成一个落地页,它给你的东西"挑不出大毛病,但一眼就知道是 AI 做的"。配色规规矩矩,圆角、渐变、卡片三件套齐活,标题居中、副标题灰一号,该有的都有——可它就是没有"一个人在乎过这个页面"的痕迹。精致,通用,假。
遇到这股「AI 味」,大多数人第一反应是两个:要么回去把 prompt 再改一遍,加上"高级感"“现代设计”"专业排版"这类形容词;要么干脆认定模型不行,盘算着是不是该上更贵的那个。这两条路我都走过,结论是基本没用——形容词喂进去,它还是输出平均款,只是平均款上更用力地糊了一层"高级感"的塑料质感。
最近一组挺干净的对照实验,正好把这件事戳穿了。
有人让两个模型——一个开源的 Kimi K2.7 Code,一个闭源的 Claude Fable 5——用同一批 prompt 各做 12 个落地页,品类铺得很杂:B2B SaaS 工具、把 SQL 查询转成图表的开发者工具、屋顶酒吧、独立书店、香水……再用 GPT-5.5 给截图和源码按 0 到 100 打分。
结论里最反直觉的一点:只给文字 prompt 时,两个模型做出来的都"一眼 AI 生成"。不是便宜那个丑、贵那个好看——是两个都假。贵的那个分数普遍高几分(独立书店 95 比 89,睡眠 app 92 比 80),但那几分买的是"完成度更高的平均款",不是"不像 AI 做的"。换更贵的模型,没解决你最在意的那个问题。
<!-- diagram:换模型vs补图 -->
真正让页面变样的是另一件事:他们搭了个小服务,把"优秀页面长什么样"的截图、还有一些现成 UI 元素,当成视觉参考直接喂给模型——Kimi 是多模态的,能看图。就这一个动作,那个屋顶酒吧页面前后判若两物:之前是"认得出是 AI 生成"的通用布局,之后排版立刻可读了,层级出来了,构图开始像"有人想让它长这样",而不是"模型把元素摆满"。
这就是我想说的那件事。你嫌弃的「AI 味」,根上不是模型审美差,是它从没见过你心里那张"好看的样子"。 你只给文字,它就只能从训练数据那片广袤的平均值里采样——精致、安全、谁都不得罪、也谁都打动不了。你把三五张好设计的截图拍在它面前,它当场就知道"好"是什么形状:间距该多大、对比该多强、留白留在哪、信息怎么排层级。它不缺创意,缺的是你递给它那张"我要这种感觉"的图。
成本这边顺带提一句:同一个 B2B SaaS 页面,便宜那个花了 4 美分,贵那个 1.09 美元,差约 27 倍;做设计你很少只生成一版,这倍数还会滚雪球。所以账很清楚——把预算和注意力从"换更贵的模型"挪到"喂更对的参考图",性价比根本不在一个量级。
但我不想把它写成一句爽口号,因为数据里有处不那么顺的地方,反而更值得记。喂参考图不是稳赚的开关。对那个便宜模型,有几个页面喂图之后分数不升反降——架构页从 88 掉到 79,香水页从 88 掉到 83。原因不难猜:图选得不对路,或风格跟页面要传达的东西打架,等于递了张"不搭"的图,把它往沟里带。
所以更准确的说法不是"喂图就灵",是**“喂对的图才灵”**。这恰恰印证了同一件事:决定产出的是你递进去那张参考的质量,不是模型的参数。参考对了,便宜模型也追得上;参考错了,再贵的模型也救不回——因为问题从来不在模型那一端。
下次再嫌 AI 做的东西"差点意思",先别急着改第十遍 prompt,也别急着开更贵的模型。打开收藏夹里那几个你真心觉得好看的页面,截几张图,连同要求一起递进去。你给它看过的好东西越具体,它还你的「AI 味」就越淡。模型这两年涨的是能力天花板,而你产出的地板,一直握在自己手里——握着的,就是你肯不肯先让它看一眼"好"长什么样。