不列颠百科全书起诉OpenAI侵权，AI训练数据版权争议升级

近日，知名出版机构《不列颠百科全书》及其旗下的韦氏词典正式对OpenAI提起诉讼，指控这家AI巨头在未经授权的情况下，使用其近10万篇在线文章训练大型语言模型（LLM），构成大规模版权侵权。这起诉讼不仅涉及训练数据的版权问题，还延伸到生成内容的逐字复制、商标法违反以及AI幻觉对出版商收入的冲击，成为AI版权争议中的又一重要案例。

核心指控：从训练数据到生成内容的全链条侵权

根据诉讼文件，《不列颠百科全书》拥有近10万篇在线文章的版权，这些内容被OpenAI“抓取”并用于训练其LLM，如GPT系列模型。出版商强调，这一行为未经许可，直接违反了版权法。

更值得关注的是，诉讼还指出OpenAI在以下两方面存在侵权：

生成内容的逐字复制：当ChatGPT等模型输出包含《不列颠百科全书》内容全文或部分逐字复制的回答时，涉嫌侵犯版权。
RAG工作流程中的使用：OpenAI的检索增强生成（RAG） 工具在响应查询时扫描网络或数据库以获取最新信息，其中可能包含《不列颠百科全书》的文章，这同样被指控为侵权。

延伸争议：商标法与收入冲击

除了版权问题，诉讼还援引了**《兰哈姆法案》**（美国商标法），指控OpenAI在生成虚假“幻觉”内容并错误归因于出版商时，违反了商标法规。例如，ChatGPT可能编造不实信息并声称来自《不列颠百科全书》，损害其品牌信誉。

从商业角度看，出版商认为ChatGPT通过生成回答直接替代了《不列颠百科全书》等内容源，与出版商形成竞争，导致其收入流失。诉讼文件写道：“ChatGPT通过生成用户查询的响应，替代并直接竞争像《不列颠百科全书》这样的出版商内容，使其收入枯竭。”此外，AI的幻觉问题还可能危及公众获取高质量、可信在线信息的能力。

行业背景：AI版权诉讼浪潮持续

《不列颠百科全书》并非孤例。此前，《纽约时报》、Ziff Davis（拥有Mashable、CNET、IGN等媒体）以及美国、加拿大的十多家报纸（如《芝加哥论坛报》《丹佛邮报》等）均已对OpenAI提起类似诉讼。同时，《不列颠百科全书》对AI公司Perplexity的诉讼仍在审理中。

目前，法律界对于使用受版权保护的内容训练LLM是否构成侵权尚无明确先例。在Anthropic的案例中，联邦法官William Alsup曾认为，将内容用作训练数据可能具有足够的“转化性”而合法，但Anthropic因非法下载数百万本书籍（而非购买）被裁定违法，最终以15亿美元集体诉讼和解告终。这凸显了AI训练数据来源的合法性仍是关键争议点。

总结与展望

这起诉讼反映了AI快速发展与传统版权保护之间的深层矛盾。随着更多出版商加入法律行动，OpenAI等AI公司可能面临更严格的监管压力，需在创新与合规之间找到平衡。未来，AI行业的版权规范、数据使用协议以及生成内容的归责机制，将成为影响技术落地与商业生态的重要议题。

《不列颠百科全书》与韦氏词典起诉OpenAI，指控其侵犯近10万篇文章版权

核心指控：从训练数据到生成内容的全链条侵权

延伸争议：商标法与收入冲击

行业背景：AI版权诉讼浪潮持续

总结与展望

延伸阅读

相关资讯