文本生成式人工智能(Gen AI)软件 — Claude的开发公司Anthropic PBC,未经授权使用数百万本他人书籍著作用以训练Claude,因而被控告侵害书籍著作权。其是否能主张合理使用?美国加州北区法院William Alsup法官做出美国第一起判决(初步即决判决),认为:(1)用于训练AI软件用途可构成合理使用;(2)购买实体书数字化建置通用数据库构成合理使用;(3)盗版取得的数百万本书籍档案放在数据库中则不构成合理使用。

被告Anthropic PBC乃开发Claude的公司
被告Anthropic PBC是一家开发AI软件的公司,由前OpenAI员工于2021年1月创立。其核心产品是一项名为Claude的Gen AI软件[1]。
在2021年1、2月时,Anthropic共同创办人Ben Mann下载了Books3数据集 — 一个包含196,640本书的在线数据库。于同年6月,Ben Mann以同样方式从Library Genesis(LibGen)下载了至少5,000,000本书。2022年7月,Anthropic又从Pirate Library Mirror(PiLiMi)下载了至少2,000,000本书。就此,Anthropic共非法下载超过7,000,000本书,其中包含每位原告作者至少2本涉讼著作的复本[2]。
之后,为了寻找获取书籍的新途径,Anthropic于2024年2月聘请Google Books计划前合作伙伴的部门主管Tom Turvey。Anthropic斥资数千万美元,购买数百万本的实体书籍后,再将这些书籍拆除书脊、裁切书页,并扫描成数字格式,被破坏的原始纸本书籍则被丢弃[3]。
Anthropic将二种来源的书籍复印档建置了一个中央数据库,主要目的是用于训练其大型语言模型(LLM)。每一个经过完整训练的LLM本身都保留了其训练数据的「压缩」复本。实质上,每个LLM所建立的关联映射(mapping)极为完整,其几乎逐字「记忆」这些用于训练的著作。因此,若要求这些训练完成的LLM背诵其训练过的著作,它们能够做到[4]。
然而,训练用复本的流通仅止于此,并未扩散至外部市场。另外,当每一LLM被整合至Claude的对外版本时,还会配合其他软件,对用户输入给LLM的内容进行过滤,并对LLM响应给用户的输出结果也加以过滤[5]。
最后,即便Anthropic决定某些盗版书籍或扫描书籍的复本将完全不再用于训练Claude,或未来永不使用,该公司仍会保留这些中央「研究数据库」或「通用数据区」作为其公司内部的「硬性资源」,以供其他用途或未来用途使用[6]。
原告为三位书籍作者
此起判决原告是Andrea Bartz、Charles Graeber与Kirk Wallace Johnson三位书籍作者(由Bartz代称之),主张其书籍著作权被Anthropic侵权[7]。2024年8月向加州北区地院提起本件之集体诉讼[8]。
Anthropic则提出动议,请求在集体诉讼认证之前,提前审理有关合理使用(fair use)的简易判决动议[9]。本案法官William Alsup于2025年6月23日做出对「合理使用」议题的即决判决。法官对本案的用途区分为二项 — 第一用途是Anthropic为了训练LLM,第二用途则是Anthropic为了建立中央数据库(保留作为未来其他用途)。
合理使用的二项用途
用途1:训练LLM
第一因素:训练LLM具有转化性目的与性质
法院认为,将本案所涉书籍用于训练Claude及其前身模型的「目的与本质」具有高度转化性[10]。如同每位读者渴望自己能成为作家一般,Anthropic开发的LLM是为了产出崭新内容而训练,而非简单复制、替代原作。若此训练过程在合理情况下需要于LLM中复制作品,该等复制行为即属转化性使用[11]。
至于AI的生成纪录显示,Claude系统中设有额外软件层,用以过滤LLM的输出内容,确保不会向使用者传递侵权内容。这与Google Books计划中所施加的限制类似,该服务限制每位使用者可见未购买之书籍摘录字数,防止其搜寻工具沦为可以免费完整阅读著作的工具[12]。
法院指出,Anthropic的LLM并未对公众重现任何作品的创作性内容,甚至也未重现某位作者可辨识的表达风格(即使假设这些内容可受著作权保护)[13]。
第二因素:不利于主张合理使用
第二因素上,所有被复制的书籍内容都是内容丰富且文法正确、良好书写的句子,因此在第二因素上,不利于主张合理使用[14]。
第三因素:属合理必要
第三因素上,使用著作的质与量。此因素的核心在于:使用的数量是否与其复制的目的「合理必要」(reasonably necessary)[15]。
在这里的使用要区分为二个问题,一是为了训练LLM有需要复制到数百万本的书籍吗?二是LLM输出的内容是否过多呢?
就第一个问题,法院认为答案为肯定。双方皆同意,训练任一LLM所需的文字总量为数十亿词汇。若仅使用书籍作为来源,Anthropic每一模型至少需数百万本书籍。即便使用包含书籍与其他文本的混合数据集,仍需数十万本书[16]。
其次,就第二个针对输出内容的使用问题,并没有被指控构成侵权。虽然这些高质量作品对LLM训练所带来的益处,并未造成作品本身泄漏给大众。因此,这类复制更显其合理与正当[17]。
第四因素:未产生市场替代效果
在第四因素判断上,着重于利用结果是否会对原著作产生市场替代效果。法院认为,用于训练特定LLM的复制品,既未、也不会取代市场对原告著作复本的需求[18]。
法院再次强调,Bartz承认,训练LLM并未导致任何原告著作之完整复本或侵权仿作向公众提供[19]。Bartz主张,训练LLM将引发大量与其著作竞争的作品。法院在本判决中先假定此说成立。但原告的主张与其抱怨学童若被训练写作能力提升,将导致市场上出现大量竞争作品并无不同。《著作权法》关注的并非此类创作或竞争替代。《著作权法》的目的是促进原创性著作的产出,而非保护作者免受竞争[20]。
Bartz另主张,现在已经出现一个训练AI的著作授权市场,而Anthropic未经授权使用伤害了这个训练授权市场。Anthropic则反驳称,进行此类授权交易的成本将超过其所预期可得之利益,这将迫使其放弃与任何权利人洽谈,甚至终止开发该项技术。法院纪录可支持任一主张,故法院认为,该授权市场的确有可能发展。但即便如此,目前并未成熟,且该市场用途并非《著作权法》赋予Bartz专属控制之对象[21]。
综合分析
合理使用分析最后需要综合分析四因素。法院认为,除第二项因素(著作性质)外,其他所有因素皆支持构成合理使用。原因在于,所涉技术是本世代所能见证最具转化性的技术之一[22]。
用途2:建立中央通用数据库之行为
法院在本判决中,另外将Anthropic用数字盗版和购买实体书扫描后建立的中央数据库永久保留,是否构成合理使用,独立进行分析。
就下载数字盗版著作以建构中央数据库
法院认为此一行为无法构成合理使用。所有因素皆不利于主张合理使用,尤其这些书籍档案乃非法取得。Anthropic的员工表示,即使某些作品(包括盗版品)已被决定不再用于训练LLM,该公司仍将其永久保留于「通用用途」之数据库中。此类利用用每一项都应有独立正当化理由,而Anthropic并未提说明这类未来用途是否能主张合理使用,仅出于自身的成本与便利考虑[23]。
将购买所得之实体书库复本转为数字图书馆复本
就合法购买实体书转为数字文件后销毁实体书,只将数字文件保留在中央数据库中,由于这些书籍是合法购买,法院认为构成合理使用,但其合理性基础与训练用的复制不同。此种情况下,第一因素强烈支持该使用,第三因素亦支持,第四因素则呈中立,仅第二因素略为不利。但在综合考虑下,由于Anthropic购置的原始实体书籍已被拆解销毁,且其数位复本未再被散布,法院认定此类使用属于合理使用[24]。
结语
本案是Gen AI训练是否构成合理使用的第一起判决,受各界关注。一方面,其参考了Google Books计划的Authors Guild v. Google案判决,认为Gen AI的输出成果对原著作的利用量与市场替代效果,必须纳入参考;二方面,其认为合法取得著作进行AI训练没问题,但非法取得盗版进行AI训练则有问题。这个区分可能会影响其他Gen AI训练侵权的案件判决。然而,其他法院是否会采取本案提供的观点?我们也只能继续观察。
延伸阅读:
备注:
- [1] Bartz v. Anthropic PBC, No. C 24-05417 WHA, 2025 WL 1741691, at *1 (N.D. Cal. June 23, 2025).
- [2] Id. at *2.
- [3] Id. at *2.
- [4] Id. at *4.
- [5] Id. at *4.
- [6] Id. at *4.
- [7] Id. at *1.
- [8] Id. at *5.
- [9] Id. at *5.
- [10] Id. at *7-8.
- [11] Id. at *8.
- [12] Id. at *7.
- [13] Id. at *8.
- [14] Id. at *14-15.
- [15] Id. at *15.
- [16] Id. at *15-16.
- [17] Id. at *15-16.
- [18] Id. at *16.
- [19] Id. at *16-17.
- [20] Id. at *17.
- [21] Id. at *17.
- [22] Id. at *18.
- [23] Id. at 18.
- [24] Id. at 18.
责任编辑:卢颀
【本文仅反映专家作者意见,不代表本报立场。】
|