krea2 open source image sota

图像模型的样张会骗人，GitHub 上的集成数不会

每次开源图像模型发新版本，我的信息流里就会多出一批对比帖：同一句 prompt 在四个模型上跑一圈，拼一张九宫格，配一句"这个模型的手画得更好"。

这种对比有没有用？有一点点。它回答的是"这个模型在精心调参后的最佳样张能打几分"。但"这个模型能不能进你的生产管线"，一个九宫格回答不了。

前几天 Krea 开源了 Krea 2，一个 12B 参数的文本到图像基础模型，分两个变体——RAW（未蒸馏的基座，用来训 LoRA）和 Turbo（8 步蒸馏，用来跑推理）。技术报告写了很多：DiT 架构、多阶段训练管线、GRPO 强化学习对齐。但我读完最强烈的判断是：这个团队从一开始就没在跟 Midjourney 比谁的单张样张更好看。他们比的是另一件事。

许可证是第一道筛子

Krea 2 的社区许可证允许商用，收入门槛卡在年营收 100 万美元。超过这个数，需要单独谈企业授权。

这个结构精确对准了两类用户：个人开发者和小团队零成本上车；年收入过百万的公司——那些会把模型嵌进自己产品管线、产生规模化商业价值的——单独付费。

对比几个前车之鉴。SD3 发布时用的自定义社区许可证把大量开发者拦在门外，社区反弹大到 Stability AI 随后紧急改了条款。Flux 的 Dev 模型出图质量确实好，但非商业许可直接劝退了所有想做产品的团队——你再喜欢它，也不能把它塞进你的 SaaS。

许可证是第一个筛子。任何无法明确回答"我能用它做产品吗"的模型，不值得放进技术选型的候选池。

Prompt Expander：让模型学会听人话

用过文生图的人都经历过一个尴尬：你输入"一个程序员深夜写代码"，模型给你一个戴眼镜的人在键盘前微笑。你想要的是对比度更高、灯光更冷、更疲惫的那种氛围，但你不知道怎么把它写成模型能稳定执行的 prompt。

Krea 2 的 Prompt Expander 做的就是这件事——把几句简短的自然语言，翻译成模型训练时见过的那种丰富、有审美的描述。

具体做法是两階段训练。先用开源 LLM 做监督微调：拿训练数据集里最详细的那批 caption，用另一个模型反向生成对应的"用户口语版 prompt"——短的、随意的、故意省略大量视觉信息的——形成"用户原话→详细描述"的配对数据。再用强化学习直接优化最终出图质量：不再管翻译出来的句子"像不像训练样本"，只管这张图够不够好。同时在奖励函数里挂一个 DINOv3 多样性打分，防止它收敛到一种"安全高分但千篇一律"的写法。

这一步的工程意义在于：它把"会用这个模型"的门槛从"你得过 prompt engineering 这一关"，降到了"你会说话就行"。每一个集成 Krea 2 的产品，都可以通过这个模块向终端用户交付一个不需要学咒语的创作入口。

Style Reference：把审美控制做成 API 参数

Prompt Expander 解决的是"把话说清楚"，Style Reference 解决的是"把审美说明白"——传一张参考图，告诉模型"我想要这种感觉"。

很多风格迁移系统有一个致命问题：内容泄漏。参考图里的构图、物体、甚至人物会漏到生成结果里。Krea 2 的方案用了一套自监督训练方法把风格和内容解耦，支持多张参考图混合、每张的强度可以连续调节。

这件事的工程意义比美学意义大。它意味着"风格控制"这个能力不再依赖封闭平台——你用 API 传一张参考图、调一个滑块，就能得到风格一致的批量输出。对做设计工具、电商商品图、游戏资产生成的团队来说，这是一个可编程、可批量的能力。

许可证→易用性→可控性，三条线汇成一句话

Permissive license 让人敢用，Prompt Expander 让人好用，Style Reference 让人能用得深。这三个技术选择全部指向同一个方向：降低别人集成 Krea 2 的阻力。

验证这个判断的方法也很直接：Krea 2 开源当天，ComfyUI、Together AI、Replicate、FAL、SGLang、Nous Research、Runware、Cloudflare、GCP、AWS 全部出现在合作方列表上。一个模型能在发布日就有超过 12 个平台的集成支持——这背后是团队在开源之前花了时间做适配和生态预热。

Stable Diffusion 1.x 是怎么赢的

Stable Diffusion 1.x 在当时出图质量不是最好的。DALL-E 2 的样张比它精致，Midjourney v4 比它稳定。但 SD 1.x 有一个后来被证明是决定性优势的东西：宽松许可证 + 开放权重。

这个组合释放了前所未有的生态能量。AUTOMATIC1111 WebUI、ComfyUI、ControlNet、CivitAI 上数千个 LoRA——这些东西没有一个是 Stability AI 官方的，但每一个都在加深 SD 1.x 的护城河。当后来者拿着更好的 benchmark 分数来挑战时，用户的第一反应是"我的工作流、我的 LoRA、我的 ControlNet 配置能不能迁移过去？"

历史不会重复，但模式会：生态惯性是比模型精度更猛的锁。

也别只捡好的说

写到这容易变成"Krea 2 什么都是对的"。说几个实在的限制。

第一，12B 参数意味着本地部署至少需要 24GB 以上显存。如果你用的是消费级显卡的 12G 或 16G 显存，基本告别本地跑。能用，但只能通过云端 API。

第二，中文生成的表现在技术报告和公开文档里都找不到数据。Qwen3-VL 做 text encoder 可能带来一定的多语言能力，但对于中文文字的准确渲染，Krea 2 没有给出任何承诺。

第三，100 万美元的年收入门槛对个人开发者不是问题，但如果你的团队营收接近这个线，选型时就得把未来的授权成本算进去。

一个下次能用的 Checklist

这篇文章真正想留下的，是一个你下次看到任何新开源图像模型时都能直接套的评估框架。不用看九宫格样张，直接问三个问题：

许可证：我能用它做产品吗？商用是什么条件？有没有收入门槛或行业限制？
集成实例：发布时有几个平台已经接入了？ComfyUI、Replicate、Together AI、FAL 这些常用管线里有没有它？
二次开发活跃度：GitHub 上除了官方仓库，有没有人在写它的 LoRA 训练教程、ControlNet 适配、diffusers pipeline？

这三个问题的答案，比任何 leaderboard 排名更能预测一个模型能不能活进生产环境。

Benchmark 分数是给自己看的。集成数是别人花真金白银投的信任票。