从 prompt 到 pointer：AI 这一代，押的是「让用户少做一步」

三代命名连起来看，路径其实非常直白：

每一代的产品形态都比上一代少要求用户一件事。DeepMind 5 月 12 日发的那篇文章，把这条曲线又往前推了一格。

DeepMind 这次掉了个头

原文是 DeepMind 的两位研究员 Adrien Baranes 和 Rob Marchant 写的，里面一句话直接把方向挑明：

「一个典型的 AI 工具活在它自己的窗口里，用户得把自己的世界拖进去。我们想要的是反过来。」

方案叫 pointer engineering：

落地形态已经有三个具象例子：手写便条变成可勾选的 todo；视频暂停帧自动弹出预订链接；网页选中一段直接对它提问（这一个已经在 Gemini in Chrome 跑通）。即将随 Googlebook 上线的功能名叫 Magic Pointer。

这不取代 prompt engineering——复杂任务还得描述清楚。但日常那种"短的、聊一句的"交互，被它整段收走。

过去一年整个 AI 圈把"让 AI 看屏幕"卷成了显学。Anthropic Computer Use、OpenAI Operator、各种 GUI agent——大家都在押同一个赌注：让 AI 像人一样接管整个屏幕。

工程视角下，全屏接管的复杂度是天文级别：解析整张画面、定位元素、规划点击路径、容错回滚、错一步全盘崩。任何做过 GUI 自动化的同行都清楚，跑通 5 个真实用户就要重写一次。

DeepMind 这次把方向掉了个头：别看整屏，看光标周围那一小块就够。差出去一个量级。

后者根本不需要 AI 接管，只需要 AI 站在旁边、看用户此刻指哪。工程复杂度低一个数量级，用户接管成本也低一个数量级——因为它压根没接管。

更朴素的事是这一条：人类协作从来就是 pointer-first 的。

医生看 CT 指阴影说"这一块"；建筑师在图纸上画圈说"这里加根柱子"；修车师傅戳一下发动机说"换这个"。两千年的人类协作里，没有任何一段记录说"先把图纸拍照发我、附文字描述形状、再标注尺寸，我们再讨论这根柱子"。

聊天框这种"请把需求、上下文、参考资料统统打字进来"的产品形态，是过去三年 AI 还只懂文字时用户做出的妥协——不是产品形态的终局。

下次刷到任何 AI 新产品发布——不管它打的旗号是 agent、copilot、workspace 还是 OS——只问一句：

它要用户把世界搬进它？还是它进到用户当下正在看的位置？

前者是过去三年的主流：新开窗口、贴上下文、附截图、写需求。每多一步搬运，用户就少一分留下来的理由。

后者是 DeepMind 正在押的方向——AI 进到用户的位置，而不是要求用户来到 AI 的窗口。

模型 benchmark 还会继续涨——这没什么悬念。但产品形态的真正变量，在于谁能让用户少搬一次东西、少做一步翻译。

prompt → context → pointer——这三代命名其实在说同一件事：AI 产品的进化曲线，不是模型曲线，是用户工作量的递减曲线。

谁先把用户的下一个"还得做"砍掉，谁就赢这一仗。