← 随机比特 / 所有内容

公开写作还在继续,但 AI 抓取已经逼得一些网站开始不再只“拦爬虫”,而是主动给它们喂低价值、会污染下游系统的内容。

2026-03-30 · 随机比特

公开写作还在继续,为什么网站已经开始给 AI 喂毒数据?

以前的网站最怕什么?没人来。

现在有些网站最怕的,反而是“来的太多,而且来的不是人”。

这两天看到一个叫 Miasma 的项目。表面上看,它只是个反爬工具:不一定直接封掉 AI 爬虫,而是把对方引进一片看起来像真内容、其实没什么价值的页面迷宫里。

但我觉得它真正值得关注的,不是功能本身,而是它透露出的那种情绪:一些网站已经不满足于“拦住爬虫”,而是开始主动给 AI 喂低价值、会拖垮下游系统的数据。

这说明开放互联网的激励,真的开始变了。

Miasma 并不复杂,但它代表了一次态度变化

Miasma 的玩法其实很直白。

作者给的示例,是在网站里埋几条普通用户根本看不到的隐藏链接,把爬虫引到 /bots 这样的路径,再由 Nginx 反代给 Miasma。对人类读者来说,页面什么都没变;对贪心的抓取器来说,它像是发现了一片“高质量内容矿场”,会继续往下抓,结果越抓越深,拿到的却是越来越多的噪声。

它甚至把资源账也算得很细:作者建议把并发限制在 50 左右,这样峰值内存大概是 50 到 60MB;超过就直接返回 429,不继续排队。意思很明确:我不是要跟你正面对烧机器,我是要用很低的成本,让你白忙。

这跟过去我们熟悉的反爬很不一样。

过去的逻辑是:封 IP、加验证码、做登录墙、识别 UA。核心目标是把对方挡在门外。

现在这类工具的思路则是另一套:你可以进来,但你带不走值钱的东西。

<figure><img src=“images/compare.jpg” /><figcaption>过去反爬的重点是拦截;现在越来越像把抓取回报率打穿</figcaption></figure>

真正变掉的,不是爬虫,而是“公开内容”的回报模型

如果把时间往前拨几年,很多网站其实并不排斥被抓。

因为搜索引擎索引你,通常意味着还有回流:你把内容公开出来,平台或搜索把用户再送回来,作者至少还能换到流量、品牌、订阅,甚至广告收入。

但 AI 抓取不太一样。

公开网页一旦被大模型、搜索增强系统、内容聚合器和各种 Agent 拿去吃,很多时候作者并不能稳定换回什么:

这就是为什么越来越多人会觉得,问题已经不是“有人看了我的内容”,而是“有人把我的内容当燃料搬走了”。

一旦收益和回流变得不对等,“开放”本身就会开始松动。

所以 Miasma 这种项目,真正戳中的不是技术点,而是一种越来越普遍的心理:如果公开发布带来的主要结果,是被机器低成本吸走,那我为什么还要继续无条件配合?

AI 时代的反爬,开始从访问控制变成经济控制

这也是我觉得这件事最值得写的地方。

传统反爬,本质上是访问控制。

而 Miasma 代表的,是另一种防守思路:经济控制。

你不是想大规模、低成本地抓吗?那我就把你的低成本模型打穿。

因为在 AI 时代,抓错东西的代价比以前大得多。

以前抓到垃圾网页,最多浪费一点带宽和存储。

现在不一样了。垃圾数据会继续往下游传:

也就是说,今天的“错误抓取”不是抓空,而是会把后面的整条链路一起拖脏、拖慢、拖贵。

这就是为什么“喂垃圾”会突然变得有杀伤力。

它不追求百分之百拦住你,它追求的是:让你继续抓,也越来越不划算。

这场变化最后改写的,可能是开放互联网本身

当然,这种做法也有代价。

作者自己都提醒,要在 robots.txt 里排除 Googlebot、Bingbot、DuckDuckBot 这些友好 bot,避免误伤正常搜索引擎。因为一旦做过头,伤到的不只是爬虫,也可能是原本还能给你带回流量的入口。

更大的问题是:如果越来越多网站开始这么干,互联网本身可能会出现更多“看起来像真内容,其实是诱饵”的页面。

站在单个站长角度,这很合理。你在自保。

但站在整个网络角度,这也意味着我们正在进入一个更浑浊的阶段:人类在网上写东西,机器在网上扫东西,而网站开始主动给机器制造雾霾。

这时真正被改写的,可能已经不是一套反爬策略,而是开放互联网几十年来默认成立的交换关系。

以前默认是:我公开,你索引,我们各自获益。

现在越来越像:我公开,你训练;我写作,你抽走;我还得额外花力气决定,哪些内容该给人看,哪些内容该拿去误导机器。

最后

所以我现在看 Miasma,不会把它理解成“又一个有意思的小工具”。

它更像一个信号:创作者和网站,开始认真考虑怎么反击 AI 抓取这件事了。

而且这次反击不是更厚的墙,而是更差的战利品。

你可以来,但你别想轻轻松松把值钱的东西带走。

如果这种思路继续扩散,未来几年我们面对的就不只是更强的反爬,而是一个越来越会“区分人和机器”的互联网。

那时候,真正的问题可能不是“AI 能不能继续抓”,而是:当公开内容不再默认欢迎机器,开放互联网还会变成原来的样子吗?

你怎么看?如果越来越多网站开始给 AI 喂毒数据,这算合理自保,还是会把互联网一起搞脏?