别急着让 AI 接管一切，先给它搭一个可复用的 Agent 工作台

这两个月，很多人第一次感受到 AI Agent 真开始“像个同事”了。

它不只是回答问题，而是会自己开网页、点按钮、跑脚本、整理文件、生成草稿，甚至能把一串步骤连起来做完。

但很多人一上头，马上就踩进了同一个坑：

AI 看起来已经会干活了，结果一到关键一步就翻车。

不是点错按钮，就是读错文件；不是把上下文弄乱，就是在最不该自动执行的地方太主动。最后你会发现，问题往往不在模型本身，而在于——你根本没给它一个能长期工作的“工位”。

我现在越来越倾向于把它理解成：别急着让 AI 接管一切，先给它搭一个可复用的 Agent 工作台。

这不是比喻，而是一套今天就能抄的配置方法。

为什么 Agent 容易从“惊艳”变成“惊吓”？

原因通常不是它不会，而是它工作的环境太随意。

很多人让 Agent 直接在自己的主力环境里干活：同一个浏览器、同一个下载目录、同一个聊天记录、同一个登录态、同一堆历史文件。短期看起来很方便，长期却会越来越乱。

因为一旦 AI 从“回答”变成“操作”，你面对的风险就不是答错一句话，而是：

它在什么浏览器里登录了哪些账号
它能读到哪些历史文件和临时下载
它能不能直接调用危险脚本
它失败以后，你有没有办法回放它刚才到底做了什么

Anthropic 在官方的 computer use 文档里一直强调安全边界、人工确认和环境隔离，这其实已经在暗示一件事：Agent 要真正进入生产，不是先追求更强自治，而是先搭好可控的执行环境。

而 Felix 在谈 Anthropic agent 实践时，也不断提到一个核心思路：不是让模型“无边界地更聪明”，而是让它在一个更适合执行的环境里持续工作。

换句话说，Agent 真正缺的不是更多 prompt，而是一个固定工位。

一个可复用的 Agent 工作台，至少要有 5 层

我会把它拆成五层。你不一定一次做满，但最好按这个顺序补齐。

1）独立浏览器会话：把账号和历史记录隔开

如果 Agent 需要开网页、登后台、翻知识库，第一件事不是给它更高权限，而是给它一个独立浏览器会话。

最简单的做法，不是买第二台电脑，而是先做到：

单独浏览器 Profile
单独 Cookie / 登录态
不复用你的主力浏览器标签页
敏感站点不要默认常驻登录

这样做的意义很直接：

它碰到的是“给它准备的环境”，不是你整套私人数字生活。

这一步的收益不只是安全，还有稳定。因为浏览器一旦混着用，历史标签、插件、缓存、登录跳转都会让自动化行为越来越不可预测。

2）独立工作目录：让文件读写有边界、可清理、可归档

第二层，是给 Agent 一个固定工作目录。

比如所有它要读取、生成、改写、导出的文件，都只放在一个专门目录下。不要默认让它在你的桌面、下载、文稿、项目仓库里到处游走。

这样你会立刻得到三个好处：

边界清晰：它能碰什么、不能碰什么，一眼就知道
失败可清理：跑坏了，整个目录可以打包、回滚、重建
结果可追踪：所有中间产物、草稿、截图、日志都在固定位置

很多人觉得“让 AI 自己找文件更智能”，但现实往往是：路径越自由，事故越难查。

3）固定工具清单：别让它会一切，先让它只会你要的那几样

第三层，是工具白名单。

真正实用的 Agent，不需要什么都能做。相反，最稳定的那类往往是：

只会访问几个固定站点
只会跑几条你验证过的脚本
只会写特定目录
只会生成特定格式的结果

这也是为什么很多团队后来会开始沉淀自己的脚本、模板、Skill、操作卡片。因为你不是在训练一个“万能 AI”，你是在给一个数字同事配工具箱。

工具越明确，复用越强；工具越泛，出错越像开盲盒。

最关键的一层：关键动作必须有“人工闸门”

很多人会在这里走向两个极端：

要么每一步都弹确认，结果自动化彻底失去效率
要么全部放权，最后在发送、删除、付款、公开发布上踩雷

我现在更认可的，是一个中间方案：

环境级默认允许，行为级关键动作闸门。

这句话很重要，也是我觉得这轮比很多泛泛 Agent 讨论更值得写的一点。

什么意思？

在安全的工作台环境里，让 Agent 默认可以做高频、低风险的小动作
- 读指定目录文件
- 在专用浏览器里切标签
- 跑白名单脚本
- 生成草稿、截图、摘要、表格
但一遇到关键动作，就必须把闸门交回给人
- 删除原文件
- 发送消息 / 邮件 / 推文
- 付款 / 下单 / 提交表单
- 改正式库、正式环境、生产配置
- 公开发布内容

这比“每一步都批准一次”更高效，也比“彻底自动化”更可控。

本质上，你不是在给它绝对权限，而是在设计一条默认顺畅、关键停手的操作路径。

这也是很多人把 Agent 真用进日常工作后，迟早会收敛到的架构。

第 5 层：一定要有日志和回放，不要靠记忆补洞

最后一层，经常被忽略，但对长期使用最重要：日志与回放。

如果 Agent 失败了，你至少应该能回答这几个问题：

它刚才读了哪些文件？
它打开了哪些页面？
它在第几步卡住了？
它有没有越过不该越过的边界？
这次失败是偶发，还是流程设计本身有洞？

没有日志，你每次都只能凭印象修；有日志，你才能把一次失败变成下一次默认更稳。

这也是为什么真正成熟的流程，不会只看“有没有跑通”，而会同时保存：

中间文件
浏览器截图
草稿版本
错误信息
最终状态

因为 Agent 不是一次性玩具，它是要迭代的。

普通人今天就能怎么搭？

如果你不想搞得太重，可以先从这份轻量版清单开始：

个人版 Agent 工作台

建一个专门目录，只放 AI 任务相关文件
开一个专用浏览器 Profile，不混用私人标签页
把常用动作收敛成 3~5 个固定脚本或固定网页入口
把“发送 / 删除 / 发布 / 支付”全部保留人工确认
每次运行后保留草稿和日志，不满意就整目录回滚

团队版 Agent 工作台

共享一套可复制的目录结构
把脚本、模板、环境变量和权限边界写清楚
区分测试环境与正式环境
让 Agent 默认只碰测试数据、测试账号、测试浏览器
所有对外动作统一放到人工审批节点

这套方法不酷，但特别实用。

因为它解决的是 Agent 真进入日常工作后的三个老问题：

能不能稳定重复
出了错能不能接管
权限放出去以后能不能收得回来

真正拉开差距的，不是模型，而是默认配置

我越来越觉得，下一阶段真正拉开差距的团队，不一定是模型用得最猛的团队，而是最早把 Agent 工作台变成默认配置的团队。

当别人还在每次都重新喂 prompt、重新解释流程、重新人工接盘时，你已经有：

固定环境
固定工具
固定审批点
固定日志
固定回收路径

这时候，Agent 才会从“偶尔惊艳”变成“稳定产能”。

所以如果你最近也在尝试让 AI 多干一点事，我的建议不是继续追“更强自治”，而是先问自己一个更现实的问题：

你有没有给它准备一个能长期工作的工位？

如果没有，先搭这个。通常这一步，比再换一个模型更值。

agent workbench checklist