《不列颠百科全书》与韦氏词典起诉OpenAI,指控其侵犯近10万篇文章版权
近日,知名出版机构《不列颠百科全书》及其旗下的韦氏词典正式对OpenAI提起诉讼,指控这家AI巨头在未经授权的情况下,使用其近10万篇在线文章训练大型语言模型(LLM),构成大规模版权侵权。这起诉讼不仅涉及训练数据的版权问题,还延伸到生成内容的逐字复制、商标法违反以及AI幻觉对出版商收入的冲击,成为AI版权争议中的又一重要案例。
核心指控:从训练数据到生成内容的全链条侵权
根据诉讼文件,《不列颠百科全书》拥有近10万篇在线文章的版权,这些内容被OpenAI“抓取”并用于训练其LLM,如GPT系列模型。出版商强调,这一行为未经许可,直接违反了版权法。
更值得关注的是,诉讼还指出OpenAI在以下两方面存在侵权:
- 生成内容的逐字复制:当ChatGPT等模型输出包含《不列颠百科全书》内容全文或部分逐字复制的回答时,涉嫌侵犯版权。
- RAG工作流程中的使用:OpenAI的检索增强生成(RAG) 工具在响应查询时扫描网络或数据库以获取最新信息,其中可能包含《不列颠百科全书》的文章,这同样被指控为侵权。
延伸争议:商标法与收入冲击
除了版权问题,诉讼还援引了**《兰哈姆法案》**(美国商标法),指控OpenAI在生成虚假“幻觉”内容并错误归因于出版商时,违反了商标法规。例如,ChatGPT可能编造不实信息并声称来自《不列颠百科全书》,损害其品牌信誉。
从商业角度看,出版商认为ChatGPT通过生成回答直接替代了《不列颠百科全书》等内容源,与出版商形成竞争,导致其收入流失。诉讼文件写道:“ChatGPT通过生成用户查询的响应,替代并直接竞争像《不列颠百科全书》这样的出版商内容,使其收入枯竭。”此外,AI的幻觉问题还可能危及公众获取高质量、可信在线信息的能力。
行业背景:AI版权诉讼浪潮持续
《不列颠百科全书》并非孤例。此前,《纽约时报》、Ziff Davis(拥有Mashable、CNET、IGN等媒体)以及美国、加拿大的十多家报纸(如《芝加哥论坛报》《丹佛邮报》等)均已对OpenAI提起类似诉讼。同时,《不列颠百科全书》对AI公司Perplexity的诉讼仍在审理中。
目前,法律界对于使用受版权保护的内容训练LLM是否构成侵权尚无明确先例。在Anthropic的案例中,联邦法官William Alsup曾认为,将内容用作训练数据可能具有足够的“转化性”而合法,但Anthropic因非法下载数百万本书籍(而非购买)被裁定违法,最终以15亿美元集体诉讼和解告终。这凸显了AI训练数据来源的合法性仍是关键争议点。
总结与展望
这起诉讼反映了AI快速发展与传统版权保护之间的深层矛盾。随着更多出版商加入法律行动,OpenAI等AI公司可能面临更严格的监管压力,需在创新与合规之间找到平衡。未来,AI行业的版权规范、数据使用协议以及生成内容的归责机制,将成为影响技术落地与商业生态的重要议题。