← 随机比特 / 所有内容

agent workbench checklist

2026-03-19 · 随机比特

别急着让 AI 接管一切,先给它搭一个可复用的 Agent 工作台

这两个月,很多人第一次感受到 AI Agent 真开始“像个同事”了。

它不只是回答问题,而是会自己开网页、点按钮、跑脚本、整理文件、生成草稿,甚至能把一串步骤连起来做完。

但很多人一上头,马上就踩进了同一个坑:

AI 看起来已经会干活了,结果一到关键一步就翻车。

不是点错按钮,就是读错文件;不是把上下文弄乱,就是在最不该自动执行的地方太主动。最后你会发现,问题往往不在模型本身,而在于——你根本没给它一个能长期工作的“工位”。

我现在越来越倾向于把它理解成:别急着让 AI 接管一切,先给它搭一个可复用的 Agent 工作台。

这不是比喻,而是一套今天就能抄的配置方法。

为什么 Agent 容易从“惊艳”变成“惊吓”?

原因通常不是它不会,而是它工作的环境太随意。

很多人让 Agent 直接在自己的主力环境里干活:同一个浏览器、同一个下载目录、同一个聊天记录、同一个登录态、同一堆历史文件。短期看起来很方便,长期却会越来越乱。

因为一旦 AI 从“回答”变成“操作”,你面对的风险就不是答错一句话,而是:

Anthropic 在官方的 computer use 文档里一直强调安全边界、人工确认和环境隔离,这其实已经在暗示一件事:Agent 要真正进入生产,不是先追求更强自治,而是先搭好可控的执行环境。

而 Felix 在谈 Anthropic agent 实践时,也不断提到一个核心思路:不是让模型“无边界地更聪明”,而是让它在一个更适合执行的环境里持续工作。

换句话说,Agent 真正缺的不是更多 prompt,而是一个固定工位。

一个可复用的 Agent 工作台,至少要有 5 层

我会把它拆成五层。你不一定一次做满,但最好按这个顺序补齐。

1)独立浏览器会话:把账号和历史记录隔开

如果 Agent 需要开网页、登后台、翻知识库,第一件事不是给它更高权限,而是给它一个独立浏览器会话

最简单的做法,不是买第二台电脑,而是先做到:

这样做的意义很直接:

它碰到的是“给它准备的环境”,不是你整套私人数字生活。

这一步的收益不只是安全,还有稳定。因为浏览器一旦混着用,历史标签、插件、缓存、登录跳转都会让自动化行为越来越不可预测。

2)独立工作目录:让文件读写有边界、可清理、可归档

第二层,是给 Agent 一个固定工作目录。

比如所有它要读取、生成、改写、导出的文件,都只放在一个专门目录下。不要默认让它在你的桌面、下载、文稿、项目仓库里到处游走。

这样你会立刻得到三个好处:

很多人觉得“让 AI 自己找文件更智能”,但现实往往是:路径越自由,事故越难查。

3)固定工具清单:别让它会一切,先让它只会你要的那几样

第三层,是工具白名单。

真正实用的 Agent,不需要什么都能做。相反,最稳定的那类往往是:

这也是为什么很多团队后来会开始沉淀自己的脚本、模板、Skill、操作卡片。因为你不是在训练一个“万能 AI”,你是在给一个数字同事配工具箱。

工具越明确,复用越强;工具越泛,出错越像开盲盒。

<figure><img src=“images/01-workbench-stack.png” alt=“01-workbench-stack”></figure>

最关键的一层:关键动作必须有“人工闸门”

很多人会在这里走向两个极端:

我现在更认可的,是一个中间方案:

环境级默认允许,行为级关键动作闸门。

这句话很重要,也是我觉得这轮比很多泛泛 Agent 讨论更值得写的一点。

什么意思?

这比“每一步都批准一次”更高效,也比“彻底自动化”更可控。

本质上,你不是在给它绝对权限,而是在设计一条默认顺畅、关键停手的操作路径。

<figure><img src=“images/02-gate-flow.png” alt=“02-gate-flow”></figure>

这也是很多人把 Agent 真用进日常工作后,迟早会收敛到的架构。

第 5 层:一定要有日志和回放,不要靠记忆补洞

最后一层,经常被忽略,但对长期使用最重要:日志与回放。

如果 Agent 失败了,你至少应该能回答这几个问题:

没有日志,你每次都只能凭印象修;有日志,你才能把一次失败变成下一次默认更稳。

这也是为什么真正成熟的流程,不会只看“有没有跑通”,而会同时保存:

因为 Agent 不是一次性玩具,它是要迭代的。

普通人今天就能怎么搭?

如果你不想搞得太重,可以先从这份轻量版清单开始:

个人版 Agent 工作台

  1. 建一个专门目录,只放 AI 任务相关文件
  2. 开一个专用浏览器 Profile,不混用私人标签页
  3. 把常用动作收敛成 3~5 个固定脚本或固定网页入口
  4. 把“发送 / 删除 / 发布 / 支付”全部保留人工确认
  5. 每次运行后保留草稿和日志,不满意就整目录回滚

团队版 Agent 工作台

  1. 共享一套可复制的目录结构
  2. 把脚本、模板、环境变量和权限边界写清楚
  3. 区分测试环境与正式环境
  4. 让 Agent 默认只碰测试数据、测试账号、测试浏览器
  5. 所有对外动作统一放到人工审批节点

这套方法不酷,但特别实用。

因为它解决的是 Agent 真进入日常工作后的三个老问题:

真正拉开差距的,不是模型,而是默认配置

我越来越觉得,下一阶段真正拉开差距的团队,不一定是模型用得最猛的团队,而是最早把 Agent 工作台变成默认配置的团队。

当别人还在每次都重新喂 prompt、重新解释流程、重新人工接盘时,你已经有:

这时候,Agent 才会从“偶尔惊艳”变成“稳定产能”。

所以如果你最近也在尝试让 AI 多干一点事,我的建议不是继续追“更强自治”,而是先问自己一个更现实的问题:

你有没有给它准备一个能长期工作的工位?

如果没有,先搭这个。通常这一步,比再换一个模型更值。