Meta因为开发其生成式人工智能(Gen AI) — Llama,而被十三名作家联名提告侵害其书籍著作权。这件判决系在加州北区地院法官Alsup法官于2025年6月23日对Gen AI合理使用议题做出美国第一起判决后,由同法院的Chhabria法官在二日后,对Gen AI合理使用议题做出的第二起判决。而此次判决认为,Meta行为可构成合理使用。但也认为Gen AI介入造成书籍市场的「市场稀释」确实是一种对著作权人的伤害。

Meta透过网络下载盗版书籍及纳入Llama训练数据集
Meta于2023年2月推出大型语言模型(LLM) — Llama 1,并于2024年4月推出Llama 3以及整合Llama 3的AI聊天机器人(chatbot)「Meta AI」[1]。
Meta需要书籍作为Llama的训练数据,因为书籍对AI训练而言是高质量的训练材料。但Meta意识到取得书籍授权难度超出预期后,开始转而透过「影子图书馆」(shadow libraries)来取得训练所需的书籍与其他文本。「影子图书馆」是指可免费下载书籍数据的在线数据库,其提供内容包括书籍、学术期刊文章、音乐或影片,无论这些资料是否受著作权保护[2]。
Meta将其从「影子图书馆」下载的书籍资料纳入用于训练Llama模型的数据集。Meta也对其模型进行了后训练,以防止模型「记住」并输出其训练数据中的某些文字,包括受著作权保护的内容。Meta的专家证人使用一种设计诱使LLM吐出训练数据内容的「对抗性」提示法进行测试,也无法让任何AI模型产出超过50个字词与标点符号(tokens)来自原告书籍的内容[3]。
原告为十三名作家
原告共十三位作家,他们的作品包括剧本、短篇故事、回忆录、散文及非小说类书籍。原告等人拥有著作权的所有书籍皆可在Meta用于训练AI的数据集中找到。在这些数据集中,Meta共下载了至少666本原告拥有著作权的书籍副本[4]。每位原告皆表示,他们愿意授权其书籍给Meta作为Gen AI训练资料之用,但Meta从未与他们洽谈过任何授权事宜[5]。
原告在加州北区地院提起本诉讼,主张Meta为训练AI复制其书籍的行为,直接造成著作权侵害。另主张用bit技术下载时,同时分享给他人下载,亦构成侵权[6]。而被告Meta请求法院对直接侵权与合理使用争议作出即决判决[7]。
合理使用分析
本案是在加州北区地院William Alsup法官于2025年6月23日对Gen AI「合理使用」议题做出美国第一起判决后[8],由同法院的Vince Chhabria法官在二日后,对Gen AI合理使用议题做出的第二起判决,以下介绍本案的合理使用四因素分析。
第一因素:具有转化性价值
Chhabria法官认为,Meta对原告书籍的使用具有高度转化性。Meta复制书籍的目的在于训练其LLMs,这些模型是创新的工具,可用于产生多样化的文本并执行各种功能。用户可以请Llama编辑他们撰写的电子邮件、翻译某段文字或将其翻译成外语、根据假设情境编写一段短剧,或执行其他多种任务[9]。
Llama的目的并非要取代原著作或对原著作「重新包装」。法官认为,即使使用「对抗性」提示方式让Llama反刍其训练数据,Llama也不会提供超过原书籍内50个单词。而且没有迹象表明它会生成为更长的文本内容来作为这些书籍的「重新包装」。这些证据最多表明Meta希望Llama能够生成某些风格的文本。但因风格不受版权保护 — 只有表达才受版权保护[10]。
第二因素:高质量著作有利于原告
合理使用第二因素中,若是创意性高或具高度表现性之著作,不利于主张合理使用。而Meta之所以要选用书本作为训练数据,就是因为书本的写作文字风格连贯,文法正确,属高质量的训练数据[11]。故此因素不利于主张合理使用。
第三因素:考虑到训练必要可复制全书
法官认为,第三因素对Meta有利,即使Meta完全复制了原告的书籍。考虑到Meta训练AI的转化性目的,Meta复制的数量是合理的。如果LLM接受更高质量材料的训练,确实效果更好。因此法官出于训练AI的转化性目的认为,将完整书籍提供给LLM训练会比只提供半本书给LLM训练相比,能达到更好的效果,因而认为Meta「利用整本作品」是「合理必要的」[12]。
第四因素:虽然转化性高,但仍要考虑对原著作的市场替代效果
即使使用具高度转化性,仍然会因为此类使用对原始作品市场的影响过大而不构成合理使用。在涉及将受著作权保护的作品用于训练Gen AI模型的案件中,原告至少主张其受到三种损害[13]:
直接生成原告书籍内容?
第一种损害主张是,透过Llama生成内容直接影响书籍销售。但法官认为,在本案中,这种损害理论并不成立,因为如上所述,Llama无法让使用者生成原告书籍中任何具意义的内容[14]。
损害原告在授权AI训练方面可获得之授权金?
原告主张,Meta未经授权使用他们的书籍进行LLM训练,损害了为训练AI授权书籍的市场。双方就是否存在或可能发展的一般书籍授权市场进行详细讨论。但法官认为,这样的市场是否存在或可能发展并不重要,因为在主张转化性利用时,原告根本不能主张就这个转化性目的而认定「未收到费用」是一种损害,否则就根本无法主张转化性利用了[15]。
产生市场稀释或间接替代?
原告的第三种主张是,使用受著作权保护的书籍来训练LLM可能会快速生成无数与原作竞争的作品。这种损害或许可称为「间接」替代效果,非「直接」替代效果。又或者可称为「市场稀释」[16]。
法官认为,「市场稀释」的现象确实已经发生。许多人利用AI协助写作,加快了书籍的出版[17]。这些产出将减少作者的销售,进而影响作者创作的动力,而这是《著作权法》需要防止的伤害[18]。
不过,原告对于这个论点并没有提供充足的证据。故就这一点上只能判决原告败诉[19]。但这并不表示在其他Gen AI的争议中不能主张「市场稀释」损害。
不承认合理使用就会阻碍AI发展?
Meta主张,认为不承认合理使用就会阻碍AI的发展。法官表示,虽然以此案认为AI训练可构成合理使用,但并不同意Meta上述的说法。其认为,就算不承认合理使用,Meta仍可透过支付授权金取得授权的方式得到作者同意才进行AI训练[20]。
结语
Chhabria法官最后综合合理使用判断四因素后,认为Meta为训练其Gen AI的行为复制原告等人之著作构成合理使用。但值得注意的有二点:(1)「市场稀释」是一个重要议题,只是本案的十三名原告没有充分举证。但未来不排除在其他合理使用争议中,充分举证产生「市场稀释」效果而认为不构成合理使用;(2)法官虽承认可构成合理使用,但并不认为「发展训练AI之著作授权市场」是完全不可能的。
延伸阅读:
备注:
- [1] Kadrey v. Meta Platforms, Inc., No. 23-CV-03417-VC, 2025 WL 1752484, at *5 (N.D. Cal. June 25, 2025).
- [2] Id. at *6.
- [3] Id. at *7.
- [4] Id. at *7.
- [5] Id. at *8.
- [6] Id. at *8.
- [7] Id. at *8.
- [8] 由北美智权报/杨智杰整理并发表于北美智权报186期:《美国第一起生成式AI构成合理使用判决:加州北区地院Bartz v. Anthropic PBC案》。
- [9] Id. at *9.
- [10] Id. at *10.
- [11] Id. at *14.
- [12] Id. at *14.
- [13] Id. at *15.
- [14] Id. at *15.
- [15] Id. at *16.
- [16] Id. at *16.
- [17] Id. at *17.
- [18] Id. at *17-18.
- [19] Id. at *20.
- [20] Id. at *22.
责任编辑:卢颀
【本文仅反映专家作者意见,不代表本报立场。】
|
















