别再死盯大模型排名了:GitHub 霸榜的 Agent Skills 生态与超级个体的活法
就在前几天,科技圈的目光都被 Anthropic 发布的首个 Mythos 级模型 Claude Fable 5 吸引。TechCrunch 疯狂报道它一键写游戏的能力,各大微信群里到处都是跑分对比和惊叹号。
但如果你作为一个在业务一线摸爬滚打的工程师,还在每天刷榜单、测 benchmark,那你可能完全错过了水面下真正汹涌的暗流。
就在 Fable 5 发版的同一天,GitHub 发生了一件堪称“异象”的事:Trending 日榜被 5 个 Agent 技能与工具项目彻底血洗。
goose (48k stars)、agent-skills (49k stars)、MemPalace (54k stars)… 这几个仓库加起来超过 30 万的 stars。大家疯狂 Fork 和 Star 的,不再是如何微调一个开源大模型,而是如何构建一套工业级的、高度垂直的赛博生产线 (Agent Skills)。
大模型的智商红利,对于绝大多数非顶尖实验室的开发者来说,已经见顶了。真正的分水岭早就变成了:谁能用最快的速度,把模型的能力塞进具体、肮脏、充满屎山代码的业务流里。
为什么你写的 Agent,跑两天就成了“智障玩具”?
过去一年,市面上 90% 的 Agent 教程都在教同一件事:写一段 You are a helpful assistant 的长篇大论,接上大模型的 API,如果输出不对,就再加一句语气严厉的 Think step by step。
说句难听的,这种“拼图式”的开发,在本地命令行里跑跑 demo 还行,一上生产环境就必定拉胯。
一旦遇到网络抖动、目标网页的 DOM 结构偷偷改版、或者是大模型半夜突发的“抽风幻觉”,整个自动化流程就会瞬间死锁。你以为你在写代码,其实你只是在做一场命中率 80% 的玄学祈祷。 毫无节制地给大模型“自由发散权”,然后把信用卡绑在 API 上,就像是把一张没有限额的黑卡交给了一个 3 岁的神童——他可能给你画出一幅世界名画,也可能去刷爆你的卡买了一车塑料玩具。
在真实的工程架构里,我们需要的是令人安心的确定性。
看看真正搞工业级 Agent 的顶级黑客在干什么:Simon Willison 前两天刚发布了一个叫 datasette-agent-edit 的项目,专门解决大模型改代码/改文本容易出错的问题。
他给出的工程范式极度克制,甚至可以说是残酷。他剥夺了模型的自由,只给了它三个动作:
view(带行号查看当前状态,不许瞎猜)str_replace(必须提供精确的老字符串进行替换,找不到哪怕差一个空格,直接报错失败)insert(在指定精确位置插入)

这不是在弱化 AI,而是在驯服 AI。就像 Cohere 最近发布的 North Mini Code,它只有 30B 的参数,它不吹牛逼说自己能全知全能,它只拼主权部署和工具调用的绝对精准度。
要把大模型从一个“什么都懂一点的实习生”,变成一个“只会拧这一种螺丝、但绝对不会拧错的流水线机械臂”。
你在业务中,有遇到过 Agent 因为编造了一个不存在的 API 参数,导致整个数据库被脏数据污染的绝望时刻吗?
破局:从“当 API 调包侠”到构建“赛博技能树”
大模型是极度标准化的引擎,任何人只要花钱就能买到。这意味着,API 本身构不成任何护城河。
你真正值钱的资产,是你沉淀下来的那些原子化的自动化脚本、状态机流转设计、以及无数次踩坑换来的异常处理逻辑——这些,就是你的 Agent Skills。
以我当前正在跑的一套 7x24 小时无人值守的“Daily Digest(每日资讯简报)”分发矩阵为例。为了把全网的优质内容自动化搬运到微信公众号、知乎、小红书这些毫无开放 API 可言的“数据孤岛”,如果按传统爬虫(正则 + XPath)去搞,前端稍微加点动态混淆,你的代码就会变成一坨无法维护的废纸。
但当我们转向 CDP (Chrome DevTools Protocol) + 意图模型 的技能架构后,等于对防爬机制进行了一次降维打击:

- 绝对掌控的 CDP 注入 Skill:不再去解析错综复杂的 HTML 标签。直接用 CDP 劫持浏览器底层协议,注入一段 JS (
inject-wechat.js),拿到渲染完毕的内存对象,直接丢给模型做结构化提取。只要人眼能看到,代码就能拿到。 - 冷酷无情的审查 Skill:自动化抓回来的数据往往充满营销废话。我们构建了多阶段的 Prompt 管道(粗筛 -> 聚类总结 -> 价值审查)。模型在这里不是用来生成的,而是用来当“安检员”的。
- 幽灵般的无头分发 Skill:不需要研究官方 API 的签名算法。通过无头浏览器模拟人工点击轨迹,自动将排版好的图文、配图精准注入到微信草稿箱中。
我们把这些“脏活累活”拆解为独立的 sohu-nav.mjs、fix-wechat.js,然后用一个极度严谨的 STATE.yaml 状态机来编排它们。大模型只是其中负责“决策”的一小环,真正让这套系统像心脏一样跳动的,是这棵不断生长的赛博技能树。
与其天天在推特上跟人争论哪个模型好,不如问问自己:断网的时候,你的 Agent 还能记住昨天跑到了哪一步吗?
超级个体的黄金时代:杀死的不是外包,是中层
底层的游戏规则真的变了。
很多人还在担心 AI 会取代程序员。其实你看最近的数据(比如 Pragmatic Engineer 的最新报告和 ClickUp CEO 的裁员信),AI 物理消灭的最狠的,是那些在公司里充当“人体信息路由器”的中层管理,以及只会照着文档写 CRUD 样板代码的平庸外包。

但这也迎来了“懂业务、能手搓自动化工具”的超级个体的绝对黄金时代。当一个工程师能用一堆 Shell 脚本、一套 CDP 注入逻辑,外加几个专门调优过的 Agent Skills,就能面不改色地跑通以前需要一整个内容运营团队才能完成的工作量时,他就不再只是个打工人了。他一个人,就是一支军队。
工程建议(建议收藏):
- 戒掉“大一统 Prompt”瘾:不要试图写一个能解决所有问题的万能提示词。把任务拆解成最小原子单元(Skills),比如“获取页面文本”、“判断是否含广告”、“提交表单”。每个单元只做一件事,做错立刻抛异常。
- 建立“状态机 (State Machine)”信仰:任何跑在生产环境的自动化任务,都必须有断点恢复能力。不要用死循环(while true)去跑逻辑,用外部状态(YAML 或 DB)来管理进度流转。哪怕机器重启,也能接着上一秒的状态继续干。
- 保护你的“脏代码”:那些你为了绕过某个平台的变态反爬机制而写出的 hack 脚本,那些为了处理模型突发性智障而硬写的
try-catch——不要觉得它们丑。它们才是你在 AI 时代,没法被别人用 20 美金 API 轻易复制的最核心资产。
关掉那个让你焦虑的模型排行榜吧。打开终端,开始写你的第一个原子 Skill。
视觉降维准备 (Step 4: Infographics)
玩具 Agent vs 工业级 Agent 对比图
- 提示:左边画一个大乱炖式的 Prompt 架构(标上“命中率80%的玄学祈祷”,连线错乱),右边画 Simon Willison 的三工具模式(View -> Replace -> Insert),像精密的齿轮,标上“确定性约束”。(可使用
article-infographic技能生成)
- 提示:左边画一个大乱炖式的 Prompt 架构(标上“命中率80%的玄学祈祷”,连线错乱),右边画 Simon Willison 的三工具模式(View -> Replace -> Insert),像精密的齿轮,标上“确定性约束”。(可使用
CDP 降维打击架构图
- 提示:展示传统爬虫(撞在防爬墙上粉碎)与 CDP 架构(直接绕过防爬墙,通过协议劫持浏览器拿到渲染后 DOM 树)的对比。突出
STATE.yaml状态机在中心的调度作用。
- 提示:展示传统爬虫(撞在防爬墙上粉碎)与 CDP 架构(直接绕过防爬墙,通过协议劫持浏览器拿到渲染后 DOM 树)的对比。突出
职场冲击漏斗图
- 提示:一个漏斗倒转的隐喻图,展示“信息路由型中层”和“CRUD外包”被 AI 挤压,而底层跑不通的苦活累活和顶层的“超级个体/业务架构师”留存。
传播钩子 (Step 5: Distribution Hooks)
- [朋友圈/小红书 - 贩卖焦虑与解药]: Claude Fable 5 刷屏了,但我劝你别再死盯大模型跑分了。你用 20 美金买到的 API,根本构不成护城河。AI 真正杀死的不是写底层代码的牛人,而是只会“照着文档写 CRUD”的平庸外包。不想被淘汰?来看看什么叫“一人成军”的超级个体赛博技能树 👇
- [知乎/技术社区 - 硬核防坑]: 别再把 API 绑在满篇的 “You are a helpful assistant” 上了。毫无约束的大模型就像拿着黑卡的3岁神童,分分钟弄脏你的生产库。今天拆解一下,工业级的 Agent 到底是怎么通过“状态机”和“原子 Skill”把 AI 彻底驯服的。拒绝玩具代码,干货预警。
- [即刻/X - 极客共鸣]: GitHub Trending 发生异象了。昨天霸榜的不再是怎么微调模型,全是几十万星的 Agent Skills 框架。聪明人早就不拼模型智商了,大家都在卷怎么把 AI 塞进业务的屎山代码里。分享一套我正在跑的 CDP 自动化矩阵架构,用 JS 注入给那些封闭平台降维打击。
