新上线今天0 投票
五大出版商联合起诉Meta:AI模型涉嫌“逐字”抄袭受版权保护书籍
近日,包括麦克米伦、麦格劳希尔、圣智、哈切特和爱思唯尔在内的五家大型图书出版商,以及畅销书作家斯科特·特罗,联合对Meta提起集体诉讼,指控该公司在训练其Llama系列AI模型时,实施了“历史上最大规模的版权材料侵犯行为之一”。
诉讼指出,Meta明知故犯地从LibGen、Anna's Archive、Sci-Hub等“臭名昭著的盗版网站”大量复制受版权保护的书籍和期刊文章,并将其纳入训练数据。此外,Meta还使用了Common Crawl数据集,该数据集据称“充斥着未经授权的版权作品副本”。
更严重的是,原告方发现,Llama模型能够“逐字或近乎逐字”地输出受版权保护的内容。例如,当输入圣智畅销教材《微积分:早期超越函数》第九版中仅两个简短的句子时,Llama就能完整地续写出后续章节。这一行为构成了对原创内容的实质性替代,严重损害了出版商的利益。
这并非Meta首次因AI训练数据版权问题被起诉。此前已有数位作者对Meta提起诉讼,并在诉讼过程中揭露了Meta内部关于如何处理“媒体报道暗示我们使用了已知盗版数据集”的讨论。尽管去年一位联邦法官在另一起类似案件中做出了有利于Meta的裁决,但法官同时强调,该裁决“并不代表Meta使用版权材料训练语言模型是合法的”。
值得注意的是,就在上个月,一群作者也因类似原因起诉了AI公司Anthropic。而联邦法官此前曾裁定,在未经许可的情况下使用合法购买的书籍训练AI模型,并不自动构成合理使用。
此次诉讼再次将AI训练数据的版权问题推上风口浪尖。随着生成式AI的爆发式增长,如何在技术创新与知识产权保护之间取得平衡,已成为整个行业必须面对的严峻挑战。