
Image by Oberon Copeland, from Unsplash
AI机器人正在使维基百科的服务器负荷过重
维基媒体基金会对其服务器因自动化机器人抓取数据以训练人工智能模型而面临的压力增长表示了警觉。
匆忙中?这里有要点:
- AI机器人以创纪录的程度抓取维基媒体的内容。
- 机器人导致多媒体带宽使用量增加了50%。
- 现在,高成本流量中有65%来自网络爬虫。
基金会在最近的一篇文章中报告称,机器生成的流量继续以前所未有的速度增长,而人类只占这些流量的一小部分。
“自2024年1月以来,我们看到用于下载多媒体内容的带宽增长了50%。”该帖子写道。
“这种增长并非来自人类读者,而主要来自自动化程序,这些程序抓取维基媒体公共图像目录中的开放许可图像,以供AI模型使用。”该帖子补充道。
被称为爬虫的机器人窃取维基媒体项目,包括维基百科和维基共享资源的大量数据,却未适当地进行归功或使用官方访问工具。这个过程使得新用户难以发现维基媒体,并对他们的技术系统产生过度压力。
例如,博文中提到,吉米·卡特的维基百科页面在他于2024年12月去世的那天接收到了超过280万的浏览量。1980年的辩论视频导致网站流量显著增加。他1980年的辩论视频也引发了流量激增。维基媒体应对了它——但仅仅是勉强应对。根据工程师的说法,真正的问题是机器人流量的持续涌入。
“我们最昂贵的流量中有65%来自机器人,”基金会写道。机器人会“批量阅读”内容,尤其是那些不太受欢迎的页面,这会触发对维基媒体核心数据中心的昂贵请求。
虽然维基媒体的内容是免费使用的,但服务器并非如此。“我们的内容是免费的,我们的基础设施却不是,”基金会说。团队继续开发方法,以促进“对基础设施的负责任使用”,敦促开发者使用API,而不是抓取整个网站。
这个问题影响到了维基媒体,以及许多其他网站和出版商。但对于全球最大的开放知识平台来说,这威胁到了数百万人依赖的服务的稳定性。
留下评论
取消