最常用的 AI 编程 skill，一行代码都不写

Matt Pocock 把他那套 mattpocock/skills 开源了，冲上了 GitHub Trending，副标题挺冲：「Skills For Real Engineers - not vibe coding」。这两天满屏都在转他那套四失败模式——AI 写代码翻车，无非是没对齐、太啰嗦、跑不通、最后烂成一团泥，他给每一类配了一个 skill 来治。

方法论很整齐，但我盯着他自己放出来的使用数据看了半天,真正让我停下的不是这套框架,是排第一的那个 skill:不是 tdd,是 grill-me——一个逼你把需求讲清楚、一行代码都不产出的东西。他自称最酷的一招也不是哪个写码 skill,是 grill-with-docs:边盘问边把决策记成 ADR。

你品一下这个排序。它撞翻的东西比 Matt 自己说的多。

主流叙事在优化错的那一端

现在关于"AI 编程怎么不翻车"的主流答案,几乎都指向下游:多写测试、多上 review、把人当成 AI 产出的最后一道质检。这套话术的潜台词是——瓶颈在"验证"。

可 grill-me 用得最多、tdd 排在后面,说的是另一回事:大多数翻车根本没到验证那一步就已经定了。你给的需求是糊的,AI 顺着糊的需求写出一坨"看着对、其实错"的东西,测试再多也只是在精装修一个盖错地基的房子。那句被说烂的抱怨——“AI 写的东西看着挺像那么回事,跑起来全不对”——它的根不在 AI 笨,在你压根没说清要什么。瓶颈早就从"验证产出"上移到了"说清意图",而多数工具和多数人,还在死磕下游。

光凭 Matt 一个人的数据,这还只是一家之言。但你把工具自己长成的样子摆过来看,事情就不一样了。

不是 Matt 的口味,是整个生态在收敛

Matt 列的四个解药,你去看主流 coding agent,会发现它们各自独立地、谁也没抄谁地长出了同一批东西:

共同语言:Claude Code 有 CLAUDE.md,Cursor 有 .cursorrules——本质都是先给 agent 灌一份"我们这儿怎么干活"的底稿,治的就是"没对齐"。
动手前先对齐:Claude Code 的 plan mode、动手前先确认方案——这不就是把 grill-me 焊进了产品默认流程里。
反馈安全网:对 git reset --hard 这类危险命令专门加护栏拦一道——治的是"跑不通之后还把现场炸了"。

四个解药,Matt 写成了 skill,工具厂商写进了产品。两条独立的路走到同一个点上,这就不是某个人的审美偏好了,是整个生态在往同一处收敛。收敛到哪?收敛到一个判断:AI 时代真正稀缺、真正要靠人补的,是上游的"对齐"和"留护栏",不是下游的"多写两行测试"。

这个循环我们见过好几次了

让我更笃定的,是它一点都不新。

4GL 喊过"不用写代码了",no-code、低代码也都喊过"不用懂工程了"。每一波的卖点都是同一句:把工程师这身基本功省掉。然后每一次,被省掉的那批基本功原封不动地又回来了——只是换了层皮。

AI 编程是这个循环的第 N 次。而循环跑过这么多遍,是能用来做预测的:哪些基本功会活下来? 不是"怎么做"的那批——语法、样板、模板代码、记 API,这些恰恰是 AI 这次真能吃掉的。活下来的永远是"决定做什么"的那批:把模糊需求逼成明确规格、把"为什么这么定"记下来、给系统留好出错时的退路。

grill-me 排第一、grill-with-docs 是他最得意的一招,正好全压在这条线上——它们管的都是上游,一行实现代码都不碰。这不是巧合,这是规律在第 N 次显形。

给你一把尺子

所以别只把 Matt 这套当成"又一个 prompt 工程合集"装上完事。带走这把尺子更值:

下次你想给 AI 配点什么、或者评估一个 AI 编程工具值不值得用,先别问"它代码写得多好"。问一句:它帮不帮我把要做的事想清楚、对齐、并且留下痕迹? 管上游的能力不会被 AI 吃掉,管下游的会。

按这把尺子,Matt 那套里最该先抄的不是写码 skill,是 grill-me 和 grill-with-docs——逼问 + ADR。想试就一行:

npx skills@latest add mattpocock/skills

装是几秒钟的事。真正的功夫在你愿不愿意在动手前,先被它狠狠盘问一轮。