美国第一起生成式AI构成合理使用判决：加州北区地院Bartz v. Anthropic PBC案

杨智杰／云林科技大学科技法律研究所教授

2025 年 7 月 16 日

232

文本生成式人工智能（Gen AI）软件 — Claude的开发公司Anthropic PBC，未经授权使用数百万本他人书籍著作用以训练Claude，因而被控告侵害书籍著作权。其是否能主张合理使用？美国加州北区法院William Alsup法官做出美国第一起判决（初步即决判决），认为：（1）用于训练AI软件用途可构成合理使用；（2）购买实体书数字化建置通用数据库构成合理使用；（3）盗版取得的数百万本书籍档案放在数据库中则不构成合理使用。

被告Anthropic PBC乃开发Claude的公司

被告Anthropic PBC是一家开发AI软件的公司，由前OpenAI员工于2021年1月创立。其核心产品是一项名为Claude的Gen AI软件[1]。

在2021年1、2月时，Anthropic共同创办人Ben Mann下载了Books3数据集 — 一个包含196,640本书的在线数据库。于同年6月，Ben Mann以同样方式从Library Genesis（LibGen）下载了至少5,000,000本书。2022年7月，Anthropic又从Pirate Library Mirror（PiLiMi）下载了至少2,000,000本书。就此，Anthropic共非法下载超过7,000,000本书，其中包含每位原告作者至少2本涉讼著作的复本[2]。

之后，为了寻找获取书籍的新途径，Anthropic于2024年2月聘请Google Books计划前合作伙伴的部门主管Tom Turvey。Anthropic斥资数千万美元，购买数百万本的实体书籍后，再将这些书籍拆除书脊、裁切书页，并扫描成数字格式，被破坏的原始纸本书籍则被丢弃[3]。

Anthropic将二种来源的书籍复印档建置了一个中央数据库，主要目的是用于训练其大型语言模型（LLM）。每一个经过完整训练的LLM本身都保留了其训练数据的「压缩」复本。实质上，每个LLM所建立的关联映射（mapping）极为完整，其几乎逐字「记忆」这些用于训练的著作。因此，若要求这些训练完成的LLM背诵其训练过的著作，它们能够做到[4]。

然而，训练用复本的流通仅止于此，并未扩散至外部市场。另外，当每一LLM被整合至Claude的对外版本时，还会配合其他软件，对用户输入给LLM的内容进行过滤，并对LLM响应给用户的输出结果也加以过滤[5]。

最后，即便Anthropic决定某些盗版书籍或扫描书籍的复本将完全不再用于训练Claude，或未来永不使用，该公司仍会保留这些中央「研究数据库」或「通用数据区」作为其公司内部的「硬性资源」，以供其他用途或未来用途使用[6]。

原告为三位书籍作者

此起判决原告是Andrea Bartz、Charles Graeber与Kirk Wallace Johnson三位书籍作者（由Bartz代称之），主张其书籍著作权被Anthropic侵权[7]。2024年8月向加州北区地院提起本件之集体诉讼[8]。

Anthropic则提出动议，请求在集体诉讼认证之前，提前审理有关合理使用（fair use）的简易判决动议[9]。本案法官William Alsup于2025年6月23日做出对「合理使用」议题的即决判决。法官对本案的用途区分为二项 — 第一用途是Anthropic为了训练LLM，第二用途则是Anthropic为了建立中央数据库（保留作为未来其他用途）。

合理使用的二项用途

用途1：训练LLM

第一因素：训练LLM具有转化性目的与性质

法院认为，将本案所涉书籍用于训练Claude及其前身模型的「目的与本质」具有高度转化性[10]。如同每位读者渴望自己能成为作家一般，Anthropic开发的LLM是为了产出崭新内容而训练，而非简单复制、替代原作。若此训练过程在合理情况下需要于LLM中复制作品，该等复制行为即属转化性使用[11]。

至于AI的生成纪录显示，Claude系统中设有额外软件层，用以过滤LLM的输出内容，确保不会向使用者传递侵权内容。这与Google Books计划中所施加的限制类似，该服务限制每位使用者可见未购买之书籍摘录字数，防止其搜寻工具沦为可以免费完整阅读著作的工具[12]。

法院指出，Anthropic的LLM并未对公众重现任何作品的创作性内容，甚至也未重现某位作者可辨识的表达风格（即使假设这些内容可受著作权保护）[13]。

第二因素：不利于主张合理使用

第二因素上，所有被复制的书籍内容都是内容丰富且文法正确、良好书写的句子，因此在第二因素上，不利于主张合理使用[14]。

第三因素：属合理必要

第三因素上，使用著作的质与量。此因素的核心在于：使用的数量是否与其复制的目的「合理必要」（reasonably necessary）[15]。

在这里的使用要区分为二个问题，一是为了训练LLM有需要复制到数百万本的书籍吗？二是LLM输出的内容是否过多呢？

就第一个问题，法院认为答案为肯定。双方皆同意，训练任一LLM所需的文字总量为数十亿词汇。若仅使用书籍作为来源，Anthropic每一模型至少需数百万本书籍。即便使用包含书籍与其他文本的混合数据集，仍需数十万本书[16]。

其次，就第二个针对输出内容的使用问题，并没有被指控构成侵权。虽然这些高质量作品对LLM训练所带来的益处，并未造成作品本身泄漏给大众。因此，这类复制更显其合理与正当[17]。

第四因素：未产生市场替代效果

在第四因素判断上，着重于利用结果是否会对原著作产生市场替代效果。法院认为，用于训练特定LLM的复制品，既未、也不会取代市场对原告著作复本的需求[18]。

法院再次强调，Bartz承认，训练LLM并未导致任何原告著作之完整复本或侵权仿作向公众提供[19]。Bartz主张，训练LLM将引发大量与其著作竞争的作品。法院在本判决中先假定此说成立。但原告的主张与其抱怨学童若被训练写作能力提升，将导致市场上出现大量竞争作品并无不同。《著作权法》关注的并非此类创作或竞争替代。《著作权法》的目的是促进原创性著作的产出，而非保护作者免受竞争 [20]。

Bartz另主张，现在已经出现一个训练AI的著作授权市场，而Anthropic未经授权使用伤害了这个训练授权市场。Anthropic则反驳称，进行此类授权交易的成本将超过其所预期可得之利益，这将迫使其放弃与任何权利人洽谈，甚至终止开发该项技术。法院纪录可支持任一主张，故法院认为，该授权市场的确有可能发展。但即便如此，目前并未成熟，且该市场用途并非《著作权法》赋予Bartz专属控制之对象[21]。

综合分析

合理使用分析最后需要综合分析四因素。法院认为，除第二项因素（著作性质）外，其他所有因素皆支持构成合理使用。原因在于，所涉技术是本世代所能见证最具转化性的技术之一[22]。

用途2：建立中央通用数据库之行为

法院在本判决中，另外将Anthropic用数字盗版和购买实体书扫描后建立的中央数据库永久保留，是否构成合理使用，独立进行分析。

就下载数字盗版著作以建构中央数据库

法院认为此一行为无法构成合理使用。所有因素皆不利于主张合理使用，尤其这些书籍档案乃非法取得。Anthropic的员工表示，即使某些作品（包括盗版品）已被决定不再用于训练LLM，该公司仍将其永久保留于「通用用途」之数据库中。此类利用用每一项都应有独立正当化理由，而Anthropic并未提说明这类未来用途是否能主张合理使用，仅出于自身的成本与便利考虑[23]。

将购买所得之实体书库复本转为数字图书馆复本

就合法购买实体书转为数字文件后销毁实体书，只将数字文件保留在中央数据库中，由于这些书籍是合法购买，法院认为构成合理使用，但其合理性基础与训练用的复制不同。此种情况下，第一因素强烈支持该使用，第三因素亦支持，第四因素则呈中立，仅第二因素略为不利。但在综合考虑下，由于Anthropic购置的原始实体书籍已被拆解销毁，且其数位复本未再被散布，法院认定此类使用属于合理使用[24]。

结语

本案是Gen AI训练是否构成合理使用的第一起判决，受各界关注。一方面，其参考了Google Books计划的Authors Guild v. Google案判决，认为Gen AI的输出成果对原著作的利用量与市场替代效果，必须纳入参考；二方面，其认为合法取得著作进行AI训练没问题，但非法取得盗版进行AI训练则有问题。这个区分可能会影响其他Gen AI训练侵权的案件判决。然而，其他法院是否会采取本案提供的观点？我们也只能继续观察。