Image by Marco Verch, from Ccnull

AI迷宫：Cloudflare的新工具用假网页欺骗AI爬虫

阅读时间: 1 分钟

最近更新： Mar 25, 2025

Cloudflare 宣布推出”AI迷宫”，这是一个旨在对抗AI驱动的网络爬虫的工具，这些网络爬虫未经许可就从网站中提取数据。

赶时间？这里有快速事实：

AI迷宫并没有直接阻止这些机器人，而是通过将它们误导到由AI生成的无尽页面迷宫中，消耗它们的时间和计算能力。

“当我们检测到未经授权的爬网行为时，我们不会阻止请求，而是会链接到一系列由AI生成的页面，这些页面足够吸引爬行者去遍历它们，”Cloudflare在博客文章中解释。

“但是，虽然这些内容看起来很真实，但实际上并不是我们正在保护的网站的内容，所以爬行者会浪费时间和资源，”Cloudflare补充道。

ArsTechnica指出，AI抓取器成为了一个问题，因为它们从网站上搜集大量数据，常常未经许可，就用来训练AI模型。这引发了几个问题：它可能侵犯知识产权，绕过网站所有者用来调控访问的控制手段。

此外，抓取可能导致对敏感或专有数据的滥用。抓取的量已经大幅增加，Cloudflare报告称每天有超过500亿次的爬虫请求。

这种大规模的数据提取耗尽了网站资源，影响了网站的性能和隐私，同时也加剧了人们对于人工智能开发中数据被利用的担忧。

虽然网站所有者传统上依赖robots.txt文件来告诉机器人们可以和不能访问什么，但许多人工智能公司——包括Anthropic和Perplexity AI等主要玩家——都被指控忽视了这些指示，正如The Verge所报道的。

Cloudflare的AI迷宫提供了一种更积极的方法来处理这些不需要的机器人。这个工具的功能类似于”下一代蜜罐”，将机器人更深地吸引到一个看似真实却最终对AI训练无用的人工内容网中。

与传统的蜜罐不同，机器人已经学会识别，AI迷宫使用Cloudflare的Workers AI平台制造了看起来真实但无关紧要的信息。

“没有真正的人类会深入到由AI生成的无稽之谈的四个环节之深，” Cloudflare指出，“任何做这种事情的访客很可能是机器人，所以这给我们提供了一个全新的工具，来识别和指纹识别恶意机器人。”

这些AI生成的内容被设计成科学上的事实，但与需要保护的实际网站无关。

这确保了该工具在仍然混淆AI抓取器的同时，不会助长错误信息的传播。误导性的页面对人类访问者是不可见的，也不会影响搜索引擎排名。

AI迷宫是Cloudflare用户的一项免费的可选功能。网站管理员可以通过他们的Cloudflare仪表板在Bot管理设置下进行激活。

该公司将此描述为由AI驱动的反制措施仅仅是开始，未来计划将假冒网页做得更加具有欺骗性。

网站与AI抓取器之间的猫鼠游戏还在继续，Cloudflare正在采取创新的方式来保护在线内容。然而，关于AI公司会多快适应这些陷阱，以及这种策略是否可能导致争夺网络数据的战斗升级，仍然存在疑问。