4.3。2.9。1.3。Mira Murati 出招后,AI 评测可能要被重写一次
4.3。2.9。1.3。
这是 GPT Realtime 2.0 在三个新评测上拿到的分数。出题人不是 OpenAI 的友商,是 Mira Murati。
她离开 OpenAI 一年。5 月 11 号,Thinking Machines Lab 第一个产品级模型 TML-Interaction-Small 上线,配同一天的一篇技术博客。博客后半段那张表,把对面 GPT Realtime 2.0 minimal 在三个新指标上打成了 64.7 比 4.3、81.7 比 2.9、35.4 比 1.3。
15 倍。28 倍。27 倍。
读这组数字的第一反应不该是"OpenAI 被打脸",是"这局牌面看不太懂"。
<!-- diagram:benchmark-gap -->
先看清牌面上的三张牌
第一张牌:这三个评测是 Murati 自己出的卷子。 TimeSpeak 测时间感知和打断节奏,CueSpeak 测视觉 cue 的主动响应,RepCount-A 测视频里数物体——三道题都是 Thinking Machines 自家定义,不是行业第三方榜单。自家出题自家考,赢面本来就在自家这边。
第二张牌:对手是 GPT Realtime 2.0 minimal。 OpenAI 实时交互线的最低配版本,不是 GPT-4o,不是 Claude Opus 4.7。"顶级模型拿不到 5 分"是标题里的话,正文里要把对位讲清。
第三张牌:她家这个模型其实不大。 12B active 的 MoE,并行处理 200 毫秒一个 chunk 的音频、视频和文字。如果你看的是参数榜,她家这个小家伙根本没进牌桌。
三张牌摆平了再看那张表,意思就变了——这不是一次模型 PK,是一次抢"什么算赢"的定义权的动作。
抢标尺,比抢模型贵
过去三年,AI 圈"什么算赢"是 OpenAI、Anthropic、Google 在定:MMLU、HumanEval、SWE-bench、GPQA、Agent-Bench——每一把尺子背后都站着发论文那家公司。整个行业的工程师就按这些尺子卷模型。
Murati 第一个公开动作不是发更强的模型,是定义三把新尺子,再用一个不到对手参数零头的 12B 小模型,在新尺子上把现役实时模型量个底朝天。
自动驾驶圈踩过同一坑。
行业卷了七八年的核心指标叫 disengagement-per-mile——每英里人为接管次数。所有公司年年优化,分数年年好看。结果一落到城市道路就发现:这指标根本没测"行人冲出来怎么办"、“被消防车堵在路中间怎么办”、“红绿灯失灵后跟旁边司机怎么协商”。Cruise 在旧金山出过事,Waymo 在凤凰城被消防车堵过,行业才意识到——当指标假设的是一个孤立场景,你优化得越好,离真实场景越远。
Murati 在 OpenAI 干到 CTO,看过的真实用户反馈不会比谁少。她在博客里引了一段"某 frontier 模型自己 model card 上的话",没指名是谁,大意是"在交互式、同步、'手不离键盘’的场景里,模型的好处不那么明显……一些用户觉得它太慢"。她没点名,我们也不替她点。但这段话被她放在论点最锋利的位置,意思很直接:过去三年所有 benchmark 假设的都是"用户交一个清晰问题,AI 把活做完返回"。但真实工作里没人这么用 AI——边看边改主意,边打断边补上下文,边切窗口边问别的问题。
这是两个产业。
一把读者能带走的尺子
下次刷到"Claude 4.7 在 SWE-bench 又涨 3 分"或者"Gemini Agent 在 WebArena 拿到 SOTA",先别急着判断这分涨没涨在你身上。
先问一句:这把尺子假设我把任务交出去就走,还是假设我会边盯着边改主意?
前者对应的是 autonomous 路上的进展——后台批处理、周末跑数据、夜里清邮件、Codex 把仓库改完发 PR。模型涨 3 分,少一次人工兜底。
后者对应的是 interactive 路上的进展——
- 你在 Cursor 里敲代码,AI 是等你按 Tab 才动,还是实时跟着你光标位置在脑子里改方案?
- 你跟 voice 助手聊到一半改主意,它会愣两秒还是直接接住"那不用刚才那个,换成……"?
- 你在客服窗口边打字边删边重打,AI 按你最终发出的那句理解,还是按你打到一半的草稿乱抢答?
这三个场景每天都在发生。第一类指标涨 3 分,第二类场景一分都没动。
过去三年几乎所有大模型公司都在卷前者。Murati 第一个公开模型选了后者。
她不一定对。三个新评测自家出题,能不能被行业第三方接受还要看。但抢"什么算赢"的定义权,比抢"谁的模型更强"贵得多——前者一旦立住,后面所有人的优化方向都得跟着走。
<!-- diagram:autonomous-vs-interactive -->
OpenAI、Anthropic、Google 一直在出考题。Murati 离开 OpenAI 一年多,第一篇技术博客是另起一张卷子。
接下来值得看的不是"她家模型多强",是半年后有没有第二家公司用她的卷子量自己。如果有,她就赢了一半——不是赢了 OpenAI,是赢了 AI 圈接下来三年卷什么的话语权。