从 prompt 到 pointer:AI 这一代,押的是「让用户少做一步」
三代命名连起来看,路径其实非常直白:
- prompt engineering——让用户把需求"写"清楚。
- context engineering——让用户把上下文"搬"过去。
- pointer engineering——让用户只需要"指"一下。
每一代的产品形态都比上一代少要求用户一件事。DeepMind 5 月 12 日发的那篇文章,把这条曲线又往前推了一格。
<figure><img src=“images/01-chat-vs-pointer.png” alt=“01-chat-vs-pointer”></figure>
DeepMind 这次掉了个头
原文是 DeepMind 的两位研究员 Adrien Baranes 和 Rob Marchant 写的,里面一句话直接把方向挑明:
「一个典型的 AI 工具活在它自己的窗口里,用户得把自己的世界拖进去。我们想要的是反过来。」
方案叫 pointer engineering:
- Gemini 看的不是整个屏幕,是光标停留那一小块周围的视觉 + 语义上下文
- 像素被直接转成"结构化对象"——一个地点、一个日期、一段引用、一张待办
- 用户的交互动作压缩成短句、语音、甚至手势:「Fix this」「Move that here」
落地形态已经有三个具象例子:手写便条变成可勾选的 todo;视频暂停帧自动弹出预订链接;网页选中一段直接对它提问(这一个已经在 Gemini in Chrome 跑通)。即将随 Googlebook 上线的功能名叫 Magic Pointer。
这不取代 prompt engineering——复杂任务还得描述清楚。但日常那种"短的、聊一句的"交互,被它整段收走。
真正押的不是技术,是「用户工作量」
过去一年整个 AI 圈把"让 AI 看屏幕"卷成了显学。Anthropic Computer Use、OpenAI Operator、各种 GUI agent——大家都在押同一个赌注:让 AI 像人一样接管整个屏幕。
工程视角下,全屏接管的复杂度是天文级别:解析整张画面、定位元素、规划点击路径、容错回滚、错一步全盘崩。任何做过 GUI 自动化的同行都清楚,跑通 5 个真实用户就要重写一次。
DeepMind 这次把方向掉了个头:别看整屏,看光标周围那一小块就够。差出去一个量级。
后者根本不需要 AI 接管,只需要 AI 站在旁边、看用户此刻指哪。工程复杂度低一个数量级,用户接管成本也低一个数量级——因为它压根没接管。
更朴素的事是这一条:人类协作从来就是 pointer-first 的。
医生看 CT 指阴影说"这一块";建筑师在图纸上画圈说"这里加根柱子";修车师傅戳一下发动机说"换这个"。两千年的人类协作里,没有任何一段记录说"先把图纸拍照发我、附文字描述形状、再标注尺寸,我们再讨论这根柱子"。
聊天框这种"请把需求、上下文、参考资料统统打字进来"的产品形态,是过去三年 AI 还只懂文字时用户做出的妥协——不是产品形态的终局。
搬世界进它,还是它进到你身边
下次刷到任何 AI 新产品发布——不管它打的旗号是 agent、copilot、workspace 还是 OS——只问一句:
它要用户把世界搬进它?还是它进到用户当下正在看的位置?
前者是过去三年的主流:新开窗口、贴上下文、附截图、写需求。每多一步搬运,用户就少一分留下来的理由。
后者是 DeepMind 正在押的方向——AI 进到用户的位置,而不是要求用户来到 AI 的窗口。
模型 benchmark 还会继续涨——这没什么悬念。但产品形态的真正变量,在于谁能让用户少搬一次东西、少做一步翻译。
prompt → context → pointer——这三代命名其实在说同一件事:AI 产品的进化曲线,不是模型曲线,是用户工作量的递减曲线。
谁先把用户的下一个"还得做"砍掉,谁就赢这一仗。