图像模型的样张会骗人,GitHub 上的集成数不会
每次开源图像模型发新版本,我的信息流里就会多出一批对比帖:同一句 prompt 在四个模型上跑一圈,拼一张九宫格,配一句"这个模型的手画得更好"。
这种对比有没有用?有一点点。它回答的是"这个模型在精心调参后的最佳样张能打几分"。但"这个模型能不能进你的生产管线",一个九宫格回答不了。
前几天 Krea 开源了 Krea 2,一个 12B 参数的文本到图像基础模型,分两个变体——RAW(未蒸馏的基座,用来训 LoRA)和 Turbo(8 步蒸馏,用来跑推理)。技术报告写了很多:DiT 架构、多阶段训练管线、GRPO 强化学习对齐。但我读完最强烈的判断是:这个团队从一开始就没在跟 Midjourney 比谁的单张样张更好看。他们比的是另一件事。
许可证是第一道筛子
Krea 2 的社区许可证允许商用,收入门槛卡在年营收 100 万美元。超过这个数,需要单独谈企业授权。
这个结构精确对准了两类用户:个人开发者和小团队零成本上车;年收入过百万的公司——那些会把模型嵌进自己产品管线、产生规模化商业价值的——单独付费。
对比几个前车之鉴。SD3 发布时用的自定义社区许可证把大量开发者拦在门外,社区反弹大到 Stability AI 随后紧急改了条款。Flux 的 Dev 模型出图质量确实好,但非商业许可直接劝退了所有想做产品的团队——你再喜欢它,也不能把它塞进你的 SaaS。
许可证是第一个筛子。任何无法明确回答"我能用它做产品吗"的模型,不值得放进技术选型的候选池。
Prompt Expander:让模型学会听人话
用过文生图的人都经历过一个尴尬:你输入"一个程序员深夜写代码",模型给你一个戴眼镜的人在键盘前微笑。你想要的是对比度更高、灯光更冷、更疲惫的那种氛围,但你不知道怎么把它写成模型能稳定执行的 prompt。
Krea 2 的 Prompt Expander 做的就是这件事——把几句简短的自然语言,翻译成模型训练时见过的那种丰富、有审美的描述。
具体做法是两階段训练。先用开源 LLM 做监督微调:拿训练数据集里最详细的那批 caption,用另一个模型反向生成对应的"用户口语版 prompt"——短的、随意的、故意省略大量视觉信息的——形成"用户原话→详细描述"的配对数据。再用强化学习直接优化最终出图质量:不再管翻译出来的句子"像不像训练样本",只管这张图够不够好。同时在奖励函数里挂一个 DINOv3 多样性打分,防止它收敛到一种"安全高分但千篇一律"的写法。
这一步的工程意义在于:它把"会用这个模型"的门槛从"你得过 prompt engineering 这一关",降到了"你会说话就行"。每一个集成 Krea 2 的产品,都可以通过这个模块向终端用户交付一个不需要学咒语的创作入口。
Style Reference:把审美控制做成 API 参数
Prompt Expander 解决的是"把话说清楚",Style Reference 解决的是"把审美说明白"——传一张参考图,告诉模型"我想要这种感觉"。
很多风格迁移系统有一个致命问题:内容泄漏。参考图里的构图、物体、甚至人物会漏到生成结果里。Krea 2 的方案用了一套自监督训练方法把风格和内容解耦,支持多张参考图混合、每张的强度可以连续调节。
这件事的工程意义比美学意义大。它意味着"风格控制"这个能力不再依赖封闭平台——你用 API 传一张参考图、调一个滑块,就能得到风格一致的批量输出。对做设计工具、电商商品图、游戏资产生成的团队来说,这是一个可编程、可批量的能力。
许可证→易用性→可控性,三条线汇成一句话
Permissive license 让人敢用,Prompt Expander 让人好用,Style Reference 让人能用得深。这三个技术选择全部指向同一个方向:降低别人集成 Krea 2 的阻力。
验证这个判断的方法也很直接:Krea 2 开源当天,ComfyUI、Together AI、Replicate、FAL、SGLang、Nous Research、Runware、Cloudflare、GCP、AWS 全部出现在合作方列表上。一个模型能在发布日就有超过 12 个平台的集成支持——这背后是团队在开源之前花了时间做适配和生态预热。
Stable Diffusion 1.x 是怎么赢的
Stable Diffusion 1.x 在当时出图质量不是最好的。DALL-E 2 的样张比它精致,Midjourney v4 比它稳定。但 SD 1.x 有一个后来被证明是决定性优势的东西:宽松许可证 + 开放权重。
这个组合释放了前所未有的生态能量。AUTOMATIC1111 WebUI、ComfyUI、ControlNet、CivitAI 上数千个 LoRA——这些东西没有一个是 Stability AI 官方的,但每一个都在加深 SD 1.x 的护城河。当后来者拿着更好的 benchmark 分数来挑战时,用户的第一反应是"我的工作流、我的 LoRA、我的 ControlNet 配置能不能迁移过去?"
历史不会重复,但模式会:生态惯性是比模型精度更猛的锁。
也别只捡好的说
写到这容易变成"Krea 2 什么都是对的"。说几个实在的限制。
第一,12B 参数意味着本地部署至少需要 24GB 以上显存。如果你用的是消费级显卡的 12G 或 16G 显存,基本告别本地跑。能用,但只能通过云端 API。
第二,中文生成的表现在技术报告和公开文档里都找不到数据。Qwen3-VL 做 text encoder 可能带来一定的多语言能力,但对于中文文字的准确渲染,Krea 2 没有给出任何承诺。
第三,100 万美元的年收入门槛对个人开发者不是问题,但如果你的团队营收接近这个线,选型时就得把未来的授权成本算进去。
一个下次能用的 Checklist
这篇文章真正想留下的,是一个你下次看到任何新开源图像模型时都能直接套的评估框架。不用看九宫格样张,直接问三个问题:
- 许可证:我能用它做产品吗?商用是什么条件?有没有收入门槛或行业限制?
- 集成实例:发布时有几个平台已经接入了?ComfyUI、Replicate、Together AI、FAL 这些常用管线里有没有它?
- 二次开发活跃度:GitHub 上除了官方仓库,有没有人在写它的 LoRA 训练教程、ControlNet 适配、diffusers pipeline?
这三个问题的答案,比任何 leaderboard 排名更能预测一个模型能不能活进生产环境。
Benchmark 分数是给自己看的。集成数是别人花真金白银投的信任票。
