Image by Nokia621, from Wiki Commons

元邮件揭示了为AI训练盗版书籍的大量下载

阅读时间: 1 分钟

最近更新： Feb 11, 2025

新近解密的电子邮件已经浮出水面，被书籍作者们称为对Meta正在进行的版权诉讼的“最有力的证据”，这是首次由Ars Technica报道的。

急着了解情况？这里有快速事实！

Ars Technica报道，作者们指控Meta非法地使用盗版书籍训练其AI模型，而电子邮件揭示了公司内部对于种子传播和下载受版权保护的材料的合法性的担忧。

上个月，Meta承认下载了一个名为LibGen的争议性数据集，其中包含数千万本盗版书籍。

然而，直到未删除的电子邮件被公之于众，具体细节才得以澄清。

根据作者的法庭文件，Meta通过Anna’s Archive站点在多个暗网图书馆中，至少下载了81.7太字节的数据，包括至少来自Z-Library和LibGen的35.7太字节的数据。此外，“Meta以前也从LibGen下载了80.6太字节的数据。”

“Meta非法下载的规模令人震惊。”作者的文件指出，即使“数据盗版的行为规模小得多——只有Meta盗版的版权作品数量的.008%，也已经导致法官将行为转交给美国检察官办公室进行刑事调查。”

Ars Technica指出，这些邮件还揭示了Meta员工内部的不安。2023年4月，研究工程师尼科拉·巴什雷科夫写道：“在公司的笔记本电脑上使用Torrent下载感觉不太对”，并附上一个笑脸表情符号。

他对使用Meta IP地址“通过Torrent下载盗版内容”表示了担忧。到2023年9月，巴什雷科夫已经不再笑了，他咨询了Meta的法律团队，并警告说“使用Torrent下载会涉及到‘播种’文件——也就是说，将内容分享出去，这在法律上可能是不合规的。”

尽管有这些警告，作者们声称Meta继续通过种子下载和分享盗版内容，甚至试图隐藏其活动。

Ars Technica报道，内部信息显示，Meta为了”避免”任何人”追踪到种子下载者/分享者”的”风险”，而选择不使用Facebook的服务器下载数据集，研究员Frank Zhang如此描述。

Meta公司的高级主管迈克尔·克拉克在证词中也承认，设置被修改过”以使得可能发生的播种量最小化。”

作者们现在争辩说，涉及到torrent决策的Meta员工必须再次接受询问，因为新的证据据称”与之前的证词相矛盾。”

例如，尽管CEO马克·扎克伯格声称自己未参与使用LibGen进行AI训练，但未经审查的信息显示，“决定使用LibGen”是在“先前向MZ进行升级”之后发生的。

Ars Technica报道，Meta坚称其在LibGen上的AI训练构成了“合理使用”，并否认非法分发作者的作品。然而，关于torrenting的启示复杂化了其辩护，使得作者们能够扩大他们对直接侵犯版权的指控。

随着案件的进行，Meta因其处理版权材料的方式面临越来越大的审查，作者们决心让这个科技巨头为他们所描述的一个“大规模非法下载计划”负责。