Meta训练其写作生成式AI也构成合理使用？Kadrey v. Meta Platforms案判决

杨智杰／云林科技大学科技法律研究所教授

2025 年 8 月 1 日

1687

Meta因为开发其生成式人工智能（Gen AI） — Llama，而被十三名作家联名提告侵害其书籍著作权。这件判决系在加州北区地院法官Alsup法官于2025年6月23日对Gen AI合理使用议题做出美国第一起判决后，由同法院的Chhabria法官在二日后，对Gen AI合理使用议题做出的第二起判决。而此次判决认为，Meta行为可构成合理使用。但也认为Gen AI介入造成书籍市场的「市场稀释」确实是一种对著作权人的伤害。

Meta透过网络下载盗版书籍及纳入Llama训练数据集

Meta于2023年2月推出大型语言模型（LLM） — Llama 1，并于2024年4月推出Llama 3以及整合Llama 3的AI聊天机器人（chatbot）「Meta AI」[1]。

Meta需要书籍作为Llama的训练数据，因为书籍对AI训练而言是高质量的训练材料。但Meta意识到取得书籍授权难度超出预期后，开始转而透过「影子图书馆」（shadow libraries）来取得训练所需的书籍与其他文本。「影子图书馆」是指可免费下载书籍数据的在线数据库，其提供内容包括书籍、学术期刊文章、音乐或影片，无论这些资料是否受著作权保护[2]。

Meta将其从「影子图书馆」下载的书籍资料纳入用于训练Llama模型的数据集。Meta也对其模型进行了后训练，以防止模型「记住」并输出其训练数据中的某些文字，包括受著作权保护的内容。Meta的专家证人使用一种设计诱使LLM吐出训练数据内容的「对抗性」提示法进行测试，也无法让任何AI模型产出超过50个字词与标点符号（tokens）来自原告书籍的内容[3]。

原告为十三名作家

原告共十三位作家，他们的作品包括剧本、短篇故事、回忆录、散文及非小说类书籍。原告等人拥有著作权的所有书籍皆可在Meta用于训练AI的数据集中找到。在这些数据集中，Meta共下载了至少666本原告拥有著作权的书籍副本[4]。每位原告皆表示，他们愿意授权其书籍给Meta作为Gen AI训练资料之用，但Meta从未与他们洽谈过任何授权事宜[5]。

原告在加州北区地院提起本诉讼，主张Meta为训练AI复制其书籍的行为，直接造成著作权侵害。另主张用bit技术下载时，同时分享给他人下载，亦构成侵权[6]。而被告Meta请求法院对直接侵权与合理使用争议作出即决判决[7]。

合理使用分析

本案是在加州北区地院William Alsup法官于2025年6月23日对Gen AI「合理使用」议题做出美国第一起判决后[8]，由同法院的Vince Chhabria法官在二日后，对Gen AI合理使用议题做出的第二起判决，以下介绍本案的合理使用四因素分析。

第一因素：具有转化性价值

Chhabria法官认为，Meta对原告书籍的使用具有高度转化性。Meta复制书籍的目的在于训练其LLMs，这些模型是创新的工具，可用于产生多样化的文本并执行各种功能。用户可以请Llama编辑他们撰写的电子邮件、翻译某段文字或将其翻译成外语、根据假设情境编写一段短剧，或执行其他多种任务[9]。

Llama的目的并非要取代原著作或对原著作「重新包装」。法官认为，即使使用「对抗性」提示方式让Llama反刍其训练数据，Llama也不会提供超过原书籍内50个单词。而且没有迹象表明它会生成为更长的文本内容来作为这些书籍的「重新包装」。这些证据最多表明Meta希望Llama能够生成某些风格的文本。但因风格不受版权保护 — 只有表达才受版权保护[10]。

第二因素：高质量著作有利于原告

合理使用第二因素中，若是创意性高或具高度表现性之著作，不利于主张合理使用。而Meta之所以要选用书本作为训练数据，就是因为书本的写作文字风格连贯，文法正确，属高质量的训练数据[11]。故此因素不利于主张合理使用。

第三因素：考虑到训练必要可复制全书

法官认为，第三因素对Meta有利，即使Meta完全复制了原告的书籍。考虑到Meta训练AI的转化性目的，Meta复制的数量是合理的。如果LLM接受更高质量材料的训练，确实效果更好。因此法官出于训练AI的转化性目的认为，将完整书籍提供给LLM训练会比只提供半本书给LLM训练相比，能达到更好的效果，因而认为Meta「利用整本作品」是「合理必要的」[12]。

第四因素：虽然转化性高，但仍要考虑对原著作的市场替代效果

即使使用具高度转化性，仍然会因为此类使用对原始作品市场的影响过大而不构成合理使用。在涉及将受著作权保护的作品用于训练Gen AI模型的案件中，原告至少主张其受到三种损害[13]：

直接生成原告书籍内容？

第一种损害主张是，透过Llama生成内容直接影响书籍销售。但法官认为，在本案中，这种损害理论并不成立，因为如上所述，Llama无法让使用者生成原告书籍中任何具意义的内容[14]。

损害原告在授权AI训练方面可获得之授权金？

原告主张，Meta未经授权使用他们的书籍进行LLM训练，损害了为训练AI授权书籍的市场。双方就是否存在或可能发展的一般书籍授权市场进行详细讨论。但法官认为，这样的市场是否存在或可能发展并不重要，因为在主张转化性利用时，原告根本不能主张就这个转化性目的而认定「未收到费用」是一种损害，否则就根本无法主张转化性利用了[15]。

产生市场稀释或间接替代？

原告的第三种主张是，使用受著作权保护的书籍来训练LLM可能会快速生成无数与原作竞争的作品。这种损害或许可称为「间接」替代效果，非「直接」替代效果。又或者可称为「市场稀释」[16]。

法官认为，「市场稀释」的现象确实已经发生。许多人利用AI协助写作，加快了书籍的出版[17]。这些产出将减少作者的销售，进而影响作者创作的动力，而这是《著作权法》需要防止的伤害[18]。

不过，原告对于这个论点并没有提供充足的证据。故就这一点上只能判决原告败诉[19]。但这并不表示在其他Gen AI的争议中不能主张「市场稀释」损害。

不承认合理使用就会阻碍AI发展？

Meta主张，认为不承认合理使用就会阻碍AI的发展。法官表示，虽然以此案认为AI训练可构成合理使用，但并不同意Meta上述的说法。其认为，就算不承认合理使用，Meta仍可透过支付授权金取得授权的方式得到作者同意才进行AI训练[20]。

结语

Chhabria法官最后综合合理使用判断四因素后，认为Meta为训练其Gen AI的行为复制原告等人之著作构成合理使用。但值得注意的有二点：（1）「市场稀释」是一个重要议题，只是本案的十三名原告没有充分举证。但未来不排除在其他合理使用争议中，充分举证产生「市场稀释」效果而认为不构成合理使用；（2）法官虽承认可构成合理使用，但并不认为「发展训练AI之著作授权市场」是完全不可能的。