← 随机比特 / 所有内容

一个腾讯 11 年架构师,从开 4 个终端手动盯 AI,到搭出 24 小时无人值守的 Agent 系统——踩过的坑比用过的模型多。

2026-04-13 · 随机比特

垃圾的思考乘以强大的模型,等于精美的垃圾

4 个终端同时开着。左上角 codex 在跑测试,右上角 gemini-cli 在改接口,左下角 claude 在写文档,右下角 Cursor 里还挂着两个 Agent 窗口。

每隔三分钟扫一眼——这个跑完了没?那个卡住了吗?某个任务报错,翻好几屏日志才找到原因。

这就是半年前我的日常。上限大概 4-6 个并发,再多就彻底混乱。

后来我搭了套系统,让 AI 自己盯自己。现在它 24 小时无人值守地跑着,我只在 Telegram 上扫一眼通知就行。

这篇不是炫技贴。是踩坑记录——坑比我用过的模型还多。


80% 的 AI 需求,根本不需要 AI

认真折腾 AI 之后,我干的第一件事不是调模型、搞 RAG,而是写了一套 Bash 脚本。

然后发现——80% 的"AI 需求"压根不需要 AI。

一个 cron + curl 能搞定的活,非要套一层 LangChain。这种事市面上太多了。

后来这个认知演化成一个决策层级:目标 → 代码 → CLI → Prompt → Agent

原则很朴素:从最简单、最确定的方案开始,只在需要认知、推理、创造力的地方才请 AI 出场。10 行 Bash 能解决的,别折腾 AI。

这一条大概帮我省了 80% 的弯路。


Vibe Coding:前三天很爽,两周后翻车

搭第一个 Agent 系统的时候,我也试过 Vibe Coding——不写 spec、不做设计,让 AI 直接上手。

前几天效率确实高,“wow 这 AI 真行”。一周后代码开始乱,AI 的实现越来越离谱,偶尔陷入打地鼠循环。两周后通读代码,到处是过度设计和冗余逻辑。

被迫亲自 review 每个文件,花了整整一天做"设计与实现对齐"——把 AI 写的代码和手写的设计文档逐一对照,一个个重构。

Vibe Coding 是"先易后难"。SDD 才是"先难后易"的大道。

但那一天的对齐没白花。它不只修好了代码,还建起了让 AI 自举的地基。

后来有一天,我发现需求澄清页面有个 bug——“无法选择待确认问题的选项”。我直接通过反馈系统提了。几分钟后收到通知:AI 自己走完了需求分析 → 任务拆解 → 代码修改。

它自己修了自己的 bug。 我只做了两件事:提交反馈,确认澄清。

自举的前提是:先有明确的设计文档和 SDD 流程,有 constitution.md 做架构约束。AI 不再自由发挥,而是在框架内工作。


打脸时刻:r = 0.019

代码的问题解决了,我又盯上了内容。从资讯采集、选题评分、自动写稿到多平台发布——这套 Daily Digest 系统现在迭代到了 v6。

一开始,80% 精力砸在写作质量上。优化 prompt,打磨开头,调结构。

然后数据抽了我一巴掌。

66 篇已发布文章,排名第一的拿走 65,298 次阅读。AI 打分最高的那篇?281 次。

AI 评分和真实阅读量的相关系数——r = 0.019,约等于零。

我费了大劲优化的"写作质量",读者根本不买账。真正决定文章能不能火的只有一件事:选题。

于是优先级来了个大翻转——选题 40%,分发 30%,内容结构 20%,管线工程 10%。

<figure> <img src=“images/01-decision-hierarchy.png” alt=“决策层级:目标→代码→CLI→Prompt→Agent” /> <figcaption>从最确定的方案开始,逐步升级到复杂方案</figcaption> </figure>


脚手架 > 模型

很多 Agent demo 不是不会跑,而是一旦跑偏你根本不知道为什么。

目标有歧义?分解出了错?工具挂了?Prompt 不稳定?还是这次纯属运气好?

做了一年,我最确定的一件事:生产级 Agent 的门槛不是模型能力,是治理能力。

14 条原则里最反常识的就这条——脚手架 > 模型

一个设计精良的系统能让弱模型打出惊人表现;烂系统会把顶级模型的能力全部浪费掉。

我的 24h 打工人用的不是最贵的模型,但有 SDD 流程 + 调度层 + 失败切换(codex → gemini → claude,5 分钟冷却自动恢复),效果远超一次性甩顶级模型。

垃圾的思考乘以强大的模型,等于精美的垃圾。

反过来,清晰的思考加合理的脚手架,才是真正的杠杆。


落地只需要记住一句话

如果你也想开始做 Agent,记住这个顺序:

先让一次执行可复盘,再让它可重复,再让它可规模化,最后让它可有限自主。

展开来说:先写清楚 spec、把过程留痕;补上 observability 和 eval;高频动作沉淀成 Skill;最后才上调度和并发。

别一上来就搞 Goal-Driven。连任务都执行不稳的系统,不可能搞目标驱动。

Agent 不是目的。从人驱动走向目标驱动,才是真正值得关注的方向。

增强自我,而非取代自我。