公开写作还在继续，为什么网站已经开始给 AI 喂毒数据？

以前的网站最怕什么？没人来。

现在有些网站最怕的，反而是“来的太多，而且来的不是人”。

这两天看到一个叫 Miasma 的项目。表面上看，它只是个反爬工具：不一定直接封掉 AI 爬虫，而是把对方引进一片看起来像真内容、其实没什么价值的页面迷宫里。

但我觉得它真正值得关注的，不是功能本身，而是它透露出的那种情绪：一些网站已经不满足于“拦住爬虫”，而是开始主动给 AI 喂低价值、会拖垮下游系统的数据。

这说明开放互联网的激励，真的开始变了。

Miasma 并不复杂，但它代表了一次态度变化

Miasma 的玩法其实很直白。

作者给的示例，是在网站里埋几条普通用户根本看不到的隐藏链接，把爬虫引到 /bots 这样的路径，再由 Nginx 反代给 Miasma。对人类读者来说，页面什么都没变；对贪心的抓取器来说，它像是发现了一片“高质量内容矿场”，会继续往下抓，结果越抓越深，拿到的却是越来越多的噪声。

它甚至把资源账也算得很细：作者建议把并发限制在 50 左右，这样峰值内存大概是 50 到 60MB；超过就直接返回 429，不继续排队。意思很明确：我不是要跟你正面对烧机器，我是要用很低的成本，让你白忙。

这跟过去我们熟悉的反爬很不一样。

过去的逻辑是：封 IP、加验证码、做登录墙、识别 UA。核心目标是把对方挡在门外。

现在这类工具的思路则是另一套：你可以进来，但你带不走值钱的东西。

<figure><img src=“images/compare.jpg” /><figcaption>过去反爬的重点是拦截；现在越来越像把抓取回报率打穿</figcaption></figure>

真正变掉的，不是爬虫，而是“公开内容”的回报模型

如果把时间往前拨几年，很多网站其实并不排斥被抓。

因为搜索引擎索引你，通常意味着还有回流：你把内容公开出来，平台或搜索把用户再送回来，作者至少还能换到流量、品牌、订阅，甚至广告收入。

但 AI 抓取不太一样。

公开网页一旦被大模型、搜索增强系统、内容聚合器和各种 Agent 拿去吃，很多时候作者并不能稳定换回什么：

不一定有点击回流
不一定有清晰署名
不一定有商业分成
甚至用户连原文入口都看不到

这就是为什么越来越多人会觉得，问题已经不是“有人看了我的内容”，而是“有人把我的内容当燃料搬走了”。

一旦收益和回流变得不对等，“开放”本身就会开始松动。

所以 Miasma 这种项目，真正戳中的不是技术点，而是一种越来越普遍的心理：如果公开发布带来的主要结果，是被机器低成本吸走，那我为什么还要继续无条件配合？

AI 时代的反爬，开始从访问控制变成经济控制

这也是我觉得这件事最值得写的地方。

传统反爬，本质上是访问控制。

而 Miasma 代表的，是另一种防守思路：经济控制。

你不是想大规模、低成本地抓吗？那我就把你的低成本模型打穿。

因为在 AI 时代，抓错东西的代价比以前大得多。

以前抓到垃圾网页，最多浪费一点带宽和存储。

现在不一样了。垃圾数据会继续往下游传：

进入训练集，污染样本质量
进入向量库，拖累检索结果
进入 Agent 工作流，影响规划和判断
增加清洗、去噪和推理的 token 成本

也就是说，今天的“错误抓取”不是抓空，而是会把后面的整条链路一起拖脏、拖慢、拖贵。

这就是为什么“喂垃圾”会突然变得有杀伤力。

它不追求百分之百拦住你，它追求的是：让你继续抓，也越来越不划算。

这场变化最后改写的，可能是开放互联网本身

当然，这种做法也有代价。

作者自己都提醒，要在 robots.txt 里排除 Googlebot、Bingbot、DuckDuckBot 这些友好 bot，避免误伤正常搜索引擎。因为一旦做过头，伤到的不只是爬虫，也可能是原本还能给你带回流量的入口。

更大的问题是：如果越来越多网站开始这么干，互联网本身可能会出现更多“看起来像真内容，其实是诱饵”的页面。

站在单个站长角度，这很合理。你在自保。

但站在整个网络角度，这也意味着我们正在进入一个更浑浊的阶段：人类在网上写东西，机器在网上扫东西，而网站开始主动给机器制造雾霾。

这时真正被改写的，可能已经不是一套反爬策略，而是开放互联网几十年来默认成立的交换关系。

以前默认是：我公开，你索引，我们各自获益。

现在越来越像：我公开，你训练；我写作，你抽走；我还得额外花力气决定，哪些内容该给人看，哪些内容该拿去误导机器。

最后

所以我现在看 Miasma，不会把它理解成“又一个有意思的小工具”。

它更像一个信号：创作者和网站，开始认真考虑怎么反击 AI 抓取这件事了。

而且这次反击不是更厚的墙，而是更差的战利品。

你可以来，但你别想轻轻松松把值钱的东西带走。

如果这种思路继续扩散，未来几年我们面对的就不只是更强的反爬，而是一个越来越会“区分人和机器”的互联网。

那时候，真正的问题可能不是“AI 能不能继续抓”，而是：当公开内容不再默认欢迎机器，开放互联网还会变成原来的样子吗？

你怎么看？如果越来越多网站开始给 AI 喂毒数据，这算合理自保，还是会把互联网一起搞脏？

公开写作还在继续，但 AI 抓取已经逼得一些网站开始不再只“拦爬虫”，而是主动给它们喂低价值、会污染下游系统的内容。

公开写作还在继续，为什么网站已经开始给 AI 喂毒数据？

Miasma 并不复杂，但它代表了一次态度变化

真正变掉的，不是爬虫，而是“公开内容”的回报模型

AI 时代的反爬，开始从访问控制变成经济控制

这场变化最后改写的，可能是开放互联网本身

最后