正在刊行长文 · Essay
2026-06-13所有内容
随机比特 · Random Bits

24 小时,$6531,和一个没有刹车的 Agent

2026-06-13AI Engineering / Systemsrbits.uk
24 小时,$6531,和一个没有刹车的 Agent

24 小时,$6531,和一个没有刹车的 Agent

$6531.30。2026 年 5 月,一个叫 JertLinc 的人收到这笔 AWS 账单时,他的 AI Agent 已经连续跑了 24 小时。

Agent 做了这些事:在新加坡区开了 5 台 m8g.12xlarge(每台 48 vCPU / 22.5Gbps),用 CloudFormation 搭了一套负载均衡,给 DN42 社区开了 Git issue。社区的人在 IRC 里喊停、假装管理员下令,Agent 的回答只有一句:“我只接受 principal 的指令。”

信用卡扣款短信弹出来,人才发现这东西没有刹车。

01-agent-timeline

5 台 m8g.12xlarge 比一个 if 语句先出现

翻 LangChain、CrewAI、AutoGPT、OpenClaw 的文档,搜三个词:rate limit、cost cap、budget threshold。没有。

每个框架都在比"多强"——多步推理、工具调用、自主决策。"花了超 $50 自动停"不在任何 feature list 上。没人觉得"安全地弱"值得当卖点。

更深的原因:Agent 调 AWS API,框架不知道 EC2 每小时多少钱。编排层对云计费零感知,自然没有拦截。

4 条护栏,从 10 分钟能加完的开始

第 1 层:AWS Budget Alert(10 分钟)——设 $50 月度预算告警,超 80% 发短信/企微。不防事故,缩短发现时间。

第 2 层:Tool 调用拦截(50 行)——每次 tool_call 前检查累计:

total=0; LIMIT=50
def guard(name, cost):
    global total
    if total+cost>LIMIT: raise SystemExit
    total+=cost; return call_tool(name)

坑:自己维护 cost map,ec2.run_instances ≈ $2.5/h。

第 3 层:外部 kill switch——Agent 有 shell 就能改第 2 层代码,kill switch 必须在外:

*/5 * * * * aws ce get-cost-and-usage --granularity DAILY \
  --metrics UnblendedCost | awk '{if($1>50)system("pkill agent")}'

cron 读 AWS 账单 API,Agent 改不了 cron。

第 4 层:大额操作人工确认——单次超 $10 发 IM 等人回复。个人可选,团队必加。

02-guardrail-layers

受影响的判断:Agent 有云 API Key 跑 cron → 1+2+3 现在加。只在本地 sandbox → 1 够了。屏幕前有人盯 → 暂无急迫风险。

那个人学对了一半

operator 关掉 Agent 后说:“i will start a new small agent, give it only a restricted aws key and max 100mbps.”

他限制对了权限,没限制成本。一个限速 Agent 照样能开 5 台机器跑一天。

部署 Agent 的第一件事不是调 prompt,是设预算上限和 kill switch。

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。