正在刊行长文 · Essay
2026-06-21所有内容
随机比特 · Random Bits

OpenAI Codex 学会了看一遍就永久复刻——以后教 AI 不用写 prompt 了

2026-06-21AI Engineering / Systemsrbits.uk

每次市场部让你帮他们"上个视频到 YouTube,顺便加个缩略图和字幕",你心里骂一句:这种机械活为什么要我手动做?

打开浏览器,点 YouTube Studio,选文件,填标题,检查版权,上传缩略图,贴字幕链接,点发布。抬头一看,20 分钟没了。

20 分钟不短。但 20 分钟乘上"你做一次,以后再也不做了"——这就有点意思了。

OpenAI Codex 6 月 20 日上线了一个功能叫 Record & Replay。macOS 上打开 Codex,点"录制",把上面那套流程手动走一遍。Codex 在旁边看着。你点完"发布",它已经把整个流程收成了一个可复用的 skill——下次再上传视频,你不用动手,也不用写 prompt,它自己做。

别急着说"这不就是录宏吗"。这是两件完全不同的事。

录宏,用过 Excel 的人都碰过。点"录制宏",做一串操作,Excel 记住,点"播放"重现。听着差不多。但录宏有一个死穴:它记的是像素坐标和按键序列。窗口换个位置、分辨率变一下、操作系统不同,整个宏就废了。Office 里那个"录制宏"按钮,你上次点它可能是 2010 年。

Codex Record & Replay 不是这么干的。它底层依赖 Computer Use——一个能真正"看"屏幕的 AI 模型。它看到的不是一个像素矩阵,而是"这里有个输入框叫标题"“右边那个蓝色按钮是上传”“下面那个下拉框是隐私选择”。它理解的是 UI 语义。

这意味着两件事。第一,界面微调不会让它崩溃——按钮往右挪了 20 像素、换了字体、窗口大小变了,它照样找得到。第二,换一台机器、换一个分辨率它也能做——因为它找的不是"先往右 480 像素再往下 320 像素",而是"标着’发布’的那个按钮"。

<!-- diagram:录宏vs语义理解 -->

这是"录像"和"看懂"的差距。录像记画面,Codex 记意图。

把这个放进编程交互界面的演化史里看,更有意思。

过去四十年,教计算机做事的交互方式换了好几代:打孔卡、命令行、图形界面、触摸屏、自然语言对话。每一代的核心目标同一个——降低"你要多精确地告诉机器你想干嘛"的门槛。

对话式已经降到了极致。跟 AI 说"写一个排序函数",它写。“分析一下这份财报”,它分析。但当你说"把视频上传到 YouTube 再补个缩略图和字幕",对话式卡住了——不是因为描述不清楚,是细节太多。你要描述的内容,比你直接做一遍还长。用 prompt 描述一个多步骤 UI 操作流程,本质上是在拿人话给机器写脚本——这事的效率天然低于直接做一遍。

这就是示范式编程开的窗口。

对话式适合"讲得清"的任务——生成、分析、推理、搜索。示范式适合"做得快"的任务——多步骤、跨应用、带 UI 操作的重复流程。两者不替代,是互补。但交互范式从一个维度(说)扩展到两个维度(说 + 做),agent 能接管的活瞬间多了一大块。以前 AI 擅长一次性任务,执行完就忘;现在它开始理解"流程"——一串有先后、有判断、上下文关联的动作。

一个判断框架:以后看到任何"agent 能看你操作一遍就复刻"的宣传,只问一句——

它记的是坐标,还是理解了意图?

回答"坐标"的,录宏换皮——多弹个窗口、换了个按钮颜色、改了一次菜单布局,它明天就挂。

回答"理解意图"的,才是真能跑在生产环境里的自动化。Codex Record & Replay 是后者。

当然有边界。一次性分析、探索性编程、创意写作——这些对话式更快。但每周三下午要跑的部署流程、每天早上要出的数据报表、每季度要过的合规检查——示范式的效率是碾压级的。因为你本来就要做这件事,这次只是顺便让 AI 在旁边看着学。

交互界面换代,带来的从不是"少做几步"。是让你去干那些以前轮不到你的事。命令行到 GUI,从后台跑脚本变成多窗口操作。GUI 到对话,从逐控件操作变成一句话描述需求。对话到示范,你会从"让 AI 把这一件事做完"变成"让 AI 帮我把这一串事都管了"。

教 AI 的逻辑变了——说不如做。你做一遍给它看,它真看懂了。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。