4.3。2.9。1.3。Mira Murati 出招后，AI 评测可能要被重写一次

4.3。2.9。1.3。

这是 GPT Realtime 2.0 在三个新评测上拿到的分数。出题人不是 OpenAI 的友商，是 Mira Murati。

她离开 OpenAI 一年。5 月 11 号，Thinking Machines Lab 第一个产品级模型 TML-Interaction-Small 上线，配同一天的一篇技术博客。博客后半段那张表，把对面 GPT Realtime 2.0 minimal 在三个新指标上打成了 64.7 比 4.3、81.7 比 2.9、35.4 比 1.3。

15 倍。28 倍。27 倍。

读这组数字的第一反应不该是"OpenAI 被打脸"，是"这局牌面看不太懂"。

先看清牌面上的三张牌

第一张牌：这三个评测是 Murati 自己出的卷子。 TimeSpeak 测时间感知和打断节奏，CueSpeak 测视觉 cue 的主动响应，RepCount-A 测视频里数物体——三道题都是 Thinking Machines 自家定义，不是行业第三方榜单。自家出题自家考，赢面本来就在自家这边。

第二张牌：对手是 GPT Realtime 2.0 minimal。 OpenAI 实时交互线的最低配版本，不是 GPT-4o，不是 Claude Opus 4.7。"顶级模型拿不到 5 分"是标题里的话，正文里要把对位讲清。

第三张牌：她家这个模型其实不大。 12B active 的 MoE，并行处理 200 毫秒一个 chunk 的音频、视频和文字。如果你看的是参数榜，她家这个小家伙根本没进牌桌。

三张牌摆平了再看那张表，意思就变了——这不是一次模型 PK，是一次抢"什么算赢"的定义权的动作。

抢标尺，比抢模型贵

过去三年，AI 圈"什么算赢"是 OpenAI、Anthropic、Google 在定：MMLU、HumanEval、SWE-bench、GPQA、Agent-Bench——每一把尺子背后都站着发论文那家公司。整个行业的工程师就按这些尺子卷模型。

Murati 第一个公开动作不是发更强的模型，是定义三把新尺子，再用一个不到对手参数零头的 12B 小模型，在新尺子上把现役实时模型量个底朝天。

自动驾驶圈踩过同一坑。

行业卷了七八年的核心指标叫 disengagement-per-mile——每英里人为接管次数。所有公司年年优化，分数年年好看。结果一落到城市道路就发现：这指标根本没测"行人冲出来怎么办"、“被消防车堵在路中间怎么办”、“红绿灯失灵后跟旁边司机怎么协商”。Cruise 在旧金山出过事，Waymo 在凤凰城被消防车堵过，行业才意识到——当指标假设的是一个孤立场景，你优化得越好，离真实场景越远。

Murati 在 OpenAI 干到 CTO，看过的真实用户反馈不会比谁少。她在博客里引了一段"某 frontier 模型自己 model card 上的话"，没指名是谁，大意是"在交互式、同步、'手不离键盘’的场景里，模型的好处不那么明显……一些用户觉得它太慢"。她没点名，我们也不替她点。但这段话被她放在论点最锋利的位置，意思很直接：过去三年所有 benchmark 假设的都是"用户交一个清晰问题，AI 把活做完返回"。但真实工作里没人这么用 AI——边看边改主意，边打断边补上下文，边切窗口边问别的问题。

这是两个产业。

一把读者能带走的尺子

下次刷到"Claude 4.7 在 SWE-bench 又涨 3 分"或者"Gemini Agent 在 WebArena 拿到 SOTA"，先别急着判断这分涨没涨在你身上。

先问一句：这把尺子假设我把任务交出去就走，还是假设我会边盯着边改主意？

前者对应的是 autonomous 路上的进展——后台批处理、周末跑数据、夜里清邮件、Codex 把仓库改完发 PR。模型涨 3 分，少一次人工兜底。

后者对应的是 interactive 路上的进展——

你在 Cursor 里敲代码，AI 是等你按 Tab 才动，还是实时跟着你光标位置在脑子里改方案？
你跟 voice 助手聊到一半改主意，它会愣两秒还是直接接住"那不用刚才那个，换成……"？
你在客服窗口边打字边删边重打，AI 按你最终发出的那句理解，还是按你打到一半的草稿乱抢答？

这三个场景每天都在发生。第一类指标涨 3 分，第二类场景一分都没动。

过去三年几乎所有大模型公司都在卷前者。Murati 第一个公开模型选了后者。

她不一定对。三个新评测自家出题，能不能被行业第三方接受还要看。但抢"什么算赢"的定义权，比抢"谁的模型更强"贵得多——前者一旦立住，后面所有人的优化方向都得跟着走。

OpenAI、Anthropic、Google 一直在出考题。Murati 离开 OpenAI 一年多，第一篇技术博客是另起一张卷子。

接下来值得看的不是"她家模型多强"，是半年后有没有第二家公司用她的卷子量自己。如果有，她就赢了一半——不是赢了 OpenAI，是赢了 AI 圈接下来三年卷什么的话语权。