AI迷宫:Cloudflare的新工具用假网页欺骗AI爬虫

Image by Marco Verch, from Ccnull

AI迷宫:Cloudflare的新工具用假网页欺骗AI爬虫

阅读时间: 1 分钟

Cloudflare 宣布推出”AI迷宫”,这是一个旨在对抗AI驱动的网络爬虫的工具,这些网络爬虫未经许可就从网站中提取数据。

赶时间?这里有快速事实:

  • 该工具生成逼真但无用的AI创造内容,以浪费爬虫的时间。
  • AI迷宫针对忽视robots.txt的机器人,包括Anthropic和Perplexity AI的机器人。
  • 它充当下一代蜜罐,检测并识别未授权的爬虫。

AI迷宫并没有直接阻止这些机器人,而是通过将它们误导到由AI生成的无尽页面迷宫中,消耗它们的时间和计算能力。

“当我们检测到未经授权的爬网行为时,我们不会阻止请求,而是会链接到一系列由AI生成的页面,这些页面足够吸引爬行者去遍历它们,”Cloudflare在博客文章中解释。

“但是,虽然这些内容看起来很真实,但实际上并不是我们正在保护的网站的内容,所以爬行者会浪费时间和资源,”Cloudflare补充道。

ArsTechnica指出,AI抓取器成为了一个问题,因为它们从网站上搜集大量数据,常常未经许可,就用来训练AI模型。这引发了几个问题:它可能侵犯知识产权,绕过网站所有者用来调控访问的控制手段。

此外,抓取可能导致对敏感或专有数据的滥用。抓取的量已经大幅增加,Cloudflare报告称每天有超过500亿次的爬虫请求。

这种大规模的数据提取耗尽了网站资源,影响了网站的性能和隐私,同时也加剧了人们对于人工智能开发中数据被利用的担忧。

虽然网站所有者传统上依赖robots.txt文件来告诉机器人们可以和不能访问什么,但许多人工智能公司——包括Anthropic和Perplexity AI等主要玩家——都被指控忽视了这些指示,正如The Verge所报道的。

Cloudflare的AI迷宫提供了一种更积极的方法来处理这些不需要的机器人。这个工具的功能类似于”下一代蜜罐”,将机器人更深地吸引到一个看似真实却最终对AI训练无用的人工内容网中。

与传统的蜜罐不同,机器人已经学会识别,AI迷宫使用Cloudflare的Workers AI平台制造了看起来真实但无关紧要的信息。

“没有真正的人类会深入到由AI生成的无稽之谈的四个环节之深,” Cloudflare指出,“任何做这种事情的访客很可能是机器人,所以这给我们提供了一个全新的工具,来识别和指纹识别恶意机器人。”

这些AI生成的内容被设计成科学上的事实,但与需要保护的实际网站无关。

这确保了该工具在仍然混淆AI抓取器的同时,不会助长错误信息的传播。误导性的页面对人类访问者是不可见的,也不会影响搜索引擎排名。

AI迷宫是Cloudflare用户的一项免费的可选功能。网站管理员可以通过他们的Cloudflare仪表板在Bot管理设置下进行激活。

该公司将此描述为由AI驱动的反制措施仅仅是开始,未来计划将假冒网页做得更加具有欺骗性。

网站与AI抓取器之间的猫鼠游戏还在继续,Cloudflare正在采取创新的方式来保护在线内容。然而,关于AI公司会多快适应这些陷阱,以及这种策略是否可能导致争夺网络数据的战斗升级,仍然存在疑问。

你喜欢这篇文章吗?为它打分!
我非常不喜欢 我不怎么喜欢 一般 挺好! 非常喜欢!

我们很高兴您喜欢我们的作品!

尊贵的读者,您介意在Trustpilot上给我们点赞吗?这很快,但对我们来说意义重大。不胜感激!

在Trustpilot上给我们评分
00 用户投票
标题
评论
谢谢你的反馈
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

留下评论

Loader
Loader 显示更多…