综合编码还是第三，但前端这一项，开源第一次把所有 Opus 顶下去了

每隔一段时间就有人问我同一个问题：开源模型到底追上闭源没有？

这个问题问得很真诚，但它藏着一个错的预设——把"追上"想象成一条平均线慢慢往上爬，等哪天和闭源那条碰到一起，就算追平。于是大家盯着综合榜：开源排第几、和第一差几个身位、是不是又缩短了零点几分。

GLM-5.2 这个周末发的版本，把这个问法直接戳破了。

先把它综合榜的位置说清楚，免得你以为我在吹。一个第三方综合编码评测里，它排第三：前面是 Fable 5 和 Opus 4.8，它压在 GPT-5.5 上面。所以按"追上没有"这个综合问法，答案还是老样子——没追上，离 Opus 4.8 这种第一梯队还隔着名次。

但把综合榜拆开，单看前端编码这一格，画风完全变了。一个独立的前端评测里，GLM-5.2 排第二，只输 Fable 5，明显高出 Opus 4.7（Thinking）一档，不是擦边领先，把所有 Opus 档——包括最新的 4.8——全顶在了下面。换个偏设计的口径，它干脆排第一。这是开源对闭源这场拉锯里，第一次不是"接近"，而是在一个具体工种上把对面整个 Opus 系列踩了下去。

01-综合榜vs前端榜

真正值得带走的，是这件事暴露的一个评估错误：综合排名是一堆单项的平均，而平均会把单项的反超抹平。

一个模型可能在前端上压过 Opus，但在长链路 agent、某些后端推理、一些它没怎么练过的偏门工种上落后，几项一平均，名次就被拽回第三。综合榜告诉你"它整体还差一档"，这话没错——但它对你有没有用，取决于你每天到底在干哪一格。

你 80% 的时间在切组件、调布局、把 Figma 稿变成能跑的页面，那综合第三跟你几乎没关系，有关系的是前端那一行，而那一行它已经反超了。反过来，你主要在跑那种几十步、跨文件、要它自己规划的长任务 agent，前端第一也救不了你，你该盯的是 agent 那一栏。

所以"它够不够用"根本不是综合榜能读出来的答案。正确的读法是：找到你最高频的那个工种，只看那一行，其余的列对你都是噪声。 这个换坐标的动作比"GLM 排第几"重要得多，因为它对下一个、再下一个模型都成立：以后别问"它综合第几能不能换"，先问"我每天干的那一格，它第几"。

讲到这我得给"反超"踩个刹车，不然就成了我最烦的那种刷榜爽文。

前端榜上的好成绩，相当一部分是"出活好看"——布局舒服、组件干净、设计感强，这是前端最吃的手感，也确实被反超了。但榜单衡量不了工程纵深：和后端联调的边界、状态管理的烂摊子、跨文件重构时它会不会把别处改崩——这些恰恰藏在综合榜那些"非前端"列里。前端单项反超是真的，但反超的只是手感这一截，前端工程剩下的纵深还在那儿等着。

连原始评测里都有人提醒：要分清"测试通过数"和"任务完成数"，一半测试变绿不等于事做完了；也有人在等长任务评测出结果，因为现在这些榜更多是中短任务。前端这一格的反超我信，长任务能不能扛活，证据还没齐，别急着把所有活都交给它。

那为什么值得专门拎出来，而不是又一条"国产模型刷榜"快讯？因为它叠了一层：MIT 开放权重。744B 参数、每 token 激活 40B 的 MoE，1M 上下文——这个体量你笔记本别想跑，但 vLLM、SGLang、Cloudflare Workers AI、OpenRouter 这些当天就接上了，你可以自己拉权重在服务器托管。这意味着这份前端能力没人能远程从你手里拿走。

这个对比这周特别扎眼，因为它差不多是 Fable 被封、到现在还没恢复的当口发出来的。闭源能力是"租"来的：你今天觉得 Fable 5 前端最强，明天它下架，工作流就断了；而一个 MIT 权重的模型，前端这一格的反超你一旦拿到手，就是真拿到了。

所以一个还在纠结要不要把前端工作流从 Claude 切走的同事问我，我会这么说：别再笼统问开源追平闭源了没。追平总是先在一个具体高频工种上把对面顶下去，再一格一格往外扩。前端这一格，这次真反超了；综合上，还差那一线。先认领你自己那一格，再决定换不换。