OpenAI Codex 学会了看一遍就永久复刻——以后教 AI 不用写 prompt 了

每次市场部让你帮他们"上个视频到 YouTube，顺便加个缩略图和字幕"，你心里骂一句：这种机械活为什么要我手动做？

打开浏览器，点 YouTube Studio，选文件，填标题，检查版权，上传缩略图，贴字幕链接，点发布。抬头一看，20 分钟没了。

20 分钟不短。但 20 分钟乘上"你做一次，以后再也不做了"——这就有点意思了。

OpenAI Codex 6 月 20 日上线了一个功能叫 Record & Replay。macOS 上打开 Codex，点"录制"，把上面那套流程手动走一遍。Codex 在旁边看着。你点完"发布"，它已经把整个流程收成了一个可复用的 skill——下次再上传视频，你不用动手，也不用写 prompt，它自己做。

别急着说"这不就是录宏吗"。这是两件完全不同的事。

录宏，用过 Excel 的人都碰过。点"录制宏"，做一串操作，Excel 记住，点"播放"重现。听着差不多。但录宏有一个死穴：它记的是像素坐标和按键序列。窗口换个位置、分辨率变一下、操作系统不同，整个宏就废了。Office 里那个"录制宏"按钮，你上次点它可能是 2010 年。

Codex Record & Replay 不是这么干的。它底层依赖 Computer Use——一个能真正"看"屏幕的 AI 模型。它看到的不是一个像素矩阵，而是"这里有个输入框叫标题"“右边那个蓝色按钮是上传”“下面那个下拉框是隐私选择”。它理解的是 UI 语义。

这意味着两件事。第一，界面微调不会让它崩溃——按钮往右挪了 20 像素、换了字体、窗口大小变了，它照样找得到。第二，换一台机器、换一个分辨率它也能做——因为它找的不是"先往右 480 像素再往下 320 像素"，而是"标着’发布’的那个按钮"。

这是"录像"和"看懂"的差距。录像记画面，Codex 记意图。

把这个放进编程交互界面的演化史里看，更有意思。

过去四十年，教计算机做事的交互方式换了好几代：打孔卡、命令行、图形界面、触摸屏、自然语言对话。每一代的核心目标同一个——降低"你要多精确地告诉机器你想干嘛"的门槛。

对话式已经降到了极致。跟 AI 说"写一个排序函数"，它写。“分析一下这份财报”，它分析。但当你说"把视频上传到 YouTube 再补个缩略图和字幕"，对话式卡住了——不是因为描述不清楚，是细节太多。你要描述的内容，比你直接做一遍还长。用 prompt 描述一个多步骤 UI 操作流程，本质上是在拿人话给机器写脚本——这事的效率天然低于直接做一遍。

这就是示范式编程开的窗口。

对话式适合"讲得清"的任务——生成、分析、推理、搜索。示范式适合"做得快"的任务——多步骤、跨应用、带 UI 操作的重复流程。两者不替代，是互补。但交互范式从一个维度（说）扩展到两个维度（说 + 做），agent 能接管的活瞬间多了一大块。以前 AI 擅长一次性任务，执行完就忘；现在它开始理解"流程"——一串有先后、有判断、上下文关联的动作。

一个判断框架：以后看到任何"agent 能看你操作一遍就复刻"的宣传，只问一句——

它记的是坐标，还是理解了意图？

回答"坐标"的，录宏换皮——多弹个窗口、换了个按钮颜色、改了一次菜单布局，它明天就挂。

回答"理解意图"的，才是真能跑在生产环境里的自动化。Codex Record & Replay 是后者。

当然有边界。一次性分析、探索性编程、创意写作——这些对话式更快。但每周三下午要跑的部署流程、每天早上要出的数据报表、每季度要过的合规检查——示范式的效率是碾压级的。因为你本来就要做这件事，这次只是顺便让 AI 在旁边看着学。

交互界面换代，带来的从不是"少做几步"。是让你去干那些以前轮不到你的事。命令行到 GUI，从后台跑脚本变成多窗口操作。GUI 到对话，从逐控件操作变成一句话描述需求。对话到示范，你会从"让 AI 把这一件事做完"变成"让 AI 帮我把这一串事都管了"。

教 AI 的逻辑变了——说不如做。你做一遍给它看，它真看懂了。