正在刊行长文 · Essay
2026-06-22所有内容
随机比特 · Random Bits

综合编码还是第三,但前端这一项,开源第一次把所有 Opus 顶下去了

2026-06-22AI Engineering / Systemsrbits.uk
综合编码还是第三,但前端这一项,开源第一次把所有 Opus 顶下去了

每隔一段时间就有人问我同一个问题:开源模型到底追上闭源没有?

这个问题问得很真诚,但它藏着一个错的预设——把"追上"想象成一条平均线慢慢往上爬,等哪天和闭源那条碰到一起,就算追平。于是大家盯着综合榜:开源排第几、和第一差几个身位、是不是又缩短了零点几分。

GLM-5.2 这个周末发的版本,把这个问法直接戳破了。

先把它综合榜的位置说清楚,免得你以为我在吹。一个第三方综合编码评测里,它排第三:前面是 Fable 5 和 Opus 4.8,它压在 GPT-5.5 上面。所以按"追上没有"这个综合问法,答案还是老样子——没追上,离 Opus 4.8 这种第一梯队还隔着名次。

但把综合榜拆开,单看前端编码这一格,画风完全变了。一个独立的前端评测里,GLM-5.2 排第二,只输 Fable 5,明显高出 Opus 4.7(Thinking)一档,不是擦边领先,把所有 Opus 档——包括最新的 4.8——全顶在了下面。换个偏设计的口径,它干脆排第一。这是开源对闭源这场拉锯里,第一次不是"接近",而是在一个具体工种上把对面整个 Opus 系列踩了下去。

01-综合榜vs前端榜

真正值得带走的,是这件事暴露的一个评估错误:综合排名是一堆单项的平均,而平均会把单项的反超抹平。

一个模型可能在前端上压过 Opus,但在长链路 agent、某些后端推理、一些它没怎么练过的偏门工种上落后,几项一平均,名次就被拽回第三。综合榜告诉你"它整体还差一档",这话没错——但它对你有没有用,取决于你每天到底在干哪一格。

你 80% 的时间在切组件、调布局、把 Figma 稿变成能跑的页面,那综合第三跟你几乎没关系,有关系的是前端那一行,而那一行它已经反超了。反过来,你主要在跑那种几十步、跨文件、要它自己规划的长任务 agent,前端第一也救不了你,你该盯的是 agent 那一栏。

所以"它够不够用"根本不是综合榜能读出来的答案。正确的读法是:找到你最高频的那个工种,只看那一行,其余的列对你都是噪声。 这个换坐标的动作比"GLM 排第几"重要得多,因为它对下一个、再下一个模型都成立:以后别问"它综合第几能不能换",先问"我每天干的那一格,它第几"。

讲到这我得给"反超"踩个刹车,不然就成了我最烦的那种刷榜爽文。

前端榜上的好成绩,相当一部分是"出活好看"——布局舒服、组件干净、设计感强,这是前端最吃的手感,也确实被反超了。但榜单衡量不了工程纵深:和后端联调的边界、状态管理的烂摊子、跨文件重构时它会不会把别处改崩——这些恰恰藏在综合榜那些"非前端"列里。前端单项反超是真的,但反超的只是手感这一截,前端工程剩下的纵深还在那儿等着。

连原始评测里都有人提醒:要分清"测试通过数"和"任务完成数",一半测试变绿不等于事做完了;也有人在等长任务评测出结果,因为现在这些榜更多是中短任务。前端这一格的反超我信,长任务能不能扛活,证据还没齐,别急着把所有活都交给它。

那为什么值得专门拎出来,而不是又一条"国产模型刷榜"快讯?因为它叠了一层:MIT 开放权重。744B 参数、每 token 激活 40B 的 MoE,1M 上下文——这个体量你笔记本别想跑,但 vLLM、SGLang、Cloudflare Workers AI、OpenRouter 这些当天就接上了,你可以自己拉权重在服务器托管。这意味着这份前端能力没人能远程从你手里拿走。

这个对比这周特别扎眼,因为它差不多是 Fable 被封、到现在还没恢复的当口发出来的。闭源能力是"租"来的:你今天觉得 Fable 5 前端最强,明天它下架,工作流就断了;而一个 MIT 权重的模型,前端这一格的反超你一旦拿到手,就是真拿到了。

所以一个还在纠结要不要把前端工作流从 Claude 切走的同事问我,我会这么说:别再笼统问开源追平闭源了没。追平总是先在一个具体高频工种上把对面顶下去,再一格一格往外扩。前端这一格,这次真反超了;综合上,还差那一线。先认领你自己那一格,再决定换不换。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。