
Image by Marco Verch, from Ccnull
AI迷宫:Cloudflare的新工具用假网页欺骗AI爬虫
Cloudflare 宣布推出”AI迷宫”,这是一个旨在对抗AI驱动的网络爬虫的工具,这些网络爬虫未经许可就从网站中提取数据。
赶时间?这里有快速事实:
- 该工具生成逼真但无用的AI创造内容,以浪费爬虫的时间。
- AI迷宫针对忽视robots.txt的机器人,包括Anthropic和Perplexity AI的机器人。
- 它充当下一代蜜罐,检测并识别未授权的爬虫。
AI迷宫并没有直接阻止这些机器人,而是通过将它们误导到由AI生成的无尽页面迷宫中,消耗它们的时间和计算能力。
“当我们检测到未经授权的爬网行为时,我们不会阻止请求,而是会链接到一系列由AI生成的页面,这些页面足够吸引爬行者去遍历它们,”Cloudflare在博客文章中解释。
“但是,虽然这些内容看起来很真实,但实际上并不是我们正在保护的网站的内容,所以爬行者会浪费时间和资源,”Cloudflare补充道。
ArsTechnica指出,AI抓取器成为了一个问题,因为它们从网站上搜集大量数据,常常未经许可,就用来训练AI模型。这引发了几个问题:它可能侵犯知识产权,绕过网站所有者用来调控访问的控制手段。
此外,抓取可能导致对敏感或专有数据的滥用。抓取的量已经大幅增加,Cloudflare报告称每天有超过500亿次的爬虫请求。
这种大规模的数据提取耗尽了网站资源,影响了网站的性能和隐私,同时也加剧了人们对于人工智能开发中数据被利用的担忧。
虽然网站所有者传统上依赖robots.txt文件来告诉机器人们可以和不能访问什么,但许多人工智能公司——包括Anthropic和Perplexity AI等主要玩家——都被指控忽视了这些指示,正如The Verge所报道的。
Cloudflare的AI迷宫提供了一种更积极的方法来处理这些不需要的机器人。这个工具的功能类似于”下一代蜜罐”,将机器人更深地吸引到一个看似真实却最终对AI训练无用的人工内容网中。
与传统的蜜罐不同,机器人已经学会识别,AI迷宫使用Cloudflare的Workers AI平台制造了看起来真实但无关紧要的信息。
“没有真正的人类会深入到由AI生成的无稽之谈的四个环节之深,” Cloudflare指出,“任何做这种事情的访客很可能是机器人,所以这给我们提供了一个全新的工具,来识别和指纹识别恶意机器人。”
这些AI生成的内容被设计成科学上的事实,但与需要保护的实际网站无关。
这确保了该工具在仍然混淆AI抓取器的同时,不会助长错误信息的传播。误导性的页面对人类访问者是不可见的,也不会影响搜索引擎排名。
AI迷宫是Cloudflare用户的一项免费的可选功能。网站管理员可以通过他们的Cloudflare仪表板在Bot管理设置下进行激活。
该公司将此描述为由AI驱动的反制措施仅仅是开始,未来计划将假冒网页做得更加具有欺骗性。
网站与AI抓取器之间的猫鼠游戏还在继续,Cloudflare正在采取创新的方式来保护在线内容。然而,关于AI公司会多快适应这些陷阱,以及这种策略是否可能导致争夺网络数据的战斗升级,仍然存在疑问。
留下评论
取消