美国第一起生成式AI构成合理使用判决:加州北区地院Bartz v. Anthropic PBC案

杨智杰/云林科技大学 科技法律研究所 教授

0
232

文本生成式人工智能(Gen AI)软件 — Claude的开发公司Anthropic PBC,未经授权使用数百万本他人书籍著作用以训练Claude,因而被控告侵害书籍著作权。其是否能主张合理使用?美国加州北区法院William Alsup法官做出美国第一起判决(初步即决判决),认为:(1)用于训练AI软件用途可构成合理使用;(2)购买实体书数字化建置通用数据库构成合理使用;(3)盗版取得的数百万本书籍档案放在数据库中则不构成合理使用。

图片来源 : shutterstock、达志影像

被告Anthropic PBC乃开发Claude的公司

被告Anthropic PBC是一家开发AI软件的公司,由前OpenAI员工于2021年1月创立。其核心产品是一项名为Claude的Gen AI软件[1]

在2021年1、2月时,Anthropic共同创办人Ben Mann下载了Books3数据集 — 一个包含196,640本书的在线数据库。于同年6月,Ben Mann以同样方式从Library Genesis(LibGen)下载了至少5,000,000本书。2022年7月,Anthropic又从Pirate Library Mirror(PiLiMi)下载了至少2,000,000本书。就此,Anthropic共非法下载超过7,000,000本书,其中包含每位原告作者至少2本涉讼著作的复本[2]

之后,为了寻找获取书籍的新途径,Anthropic于2024年2月聘请Google Books计划前合作伙伴的部门主管Tom Turvey。Anthropic斥资数千万美元,购买数百万本的实体书籍后,再将这些书籍拆除书脊、裁切书页,并扫描成数字格式,被破坏的原始纸本书籍则被丢弃[3]

Anthropic将二种来源的书籍复印档建置了一个中央数据库,主要目的是用于训练其大型语言模型(LLM)。每一个经过完整训练的LLM本身都保留了其训练数据的「压缩」复本。实质上,每个LLM所建立的关联映射(mapping)极为完整,其几乎逐字「记忆」这些用于训练的著作。因此,若要求这些训练完成的LLM背诵其训练过的著作,它们能够做到[4]

然而,训练用复本的流通仅止于此,并未扩散至外部市场。另外,当每一LLM被整合至Claude的对外版本时,还会配合其他软件,对用户输入给LLM的内容进行过滤,并对LLM响应给用户的输出结果也加以过滤[5]

最后,即便Anthropic决定某些盗版书籍或扫描书籍的复本将完全不再用于训练Claude,或未来永不使用,该公司仍会保留这些中央「研究数据库」或「通用数据区」作为其公司内部的「硬性资源」,以供其他用途或未来用途使用[6]

原告为三位书籍作者

此起判决原告是Andrea Bartz、Charles Graeber与Kirk Wallace Johnson三位书籍作者(由Bartz代称之),主张其书籍著作权被Anthropic侵权[7]。2024年8月向加州北区地院提起本件之集体诉讼[8]

Anthropic则提出动议,请求在集体诉讼认证之前,提前审理有关合理使用(fair use)的简易判决动议[9]。本案法官William Alsup于2025年6月23日做出对「合理使用」议题的即决判决。法官对本案的用途区分为二项 — 第一用途是Anthropic为了训练LLM,第二用途则是Anthropic为了建立中央数据库(保留作为未来其他用途)。

合理使用的二项用途

用途1:训练LLM

第一因素:训练LLM具有转化性目的与性质

法院认为,将本案所涉书籍用于训练Claude及其前身模型的「目的与本质」具有高度转化性[10]。如同每位读者渴望自己能成为作家一般,Anthropic开发的LLM是为了产出崭新内容而训练,而非简单复制、替代原作。若此训练过程在合理情况下需要于LLM中复制作品,该等复制行为即属转化性使用[11]

至于AI的生成纪录显示,Claude系统中设有额外软件层,用以过滤LLM的输出内容,确保不会向使用者传递侵权内容。这与Google Books计划中所施加的限制类似,该服务限制每位使用者可见未购买之书籍摘录字数,防止其搜寻工具沦为可以免费完整阅读著作的工具[12]

法院指出,Anthropic的LLM并未对公众重现任何作品的创作性内容,甚至也未重现某位作者可辨识的表达风格(即使假设这些内容可受著作权保护)[13]

第二因素:不利于主张合理使用

第二因素上,所有被复制的书籍内容都是内容丰富且文法正确、良好书写的句子,因此在第二因素上,不利于主张合理使用[14]

第三因素:属合理必要

第三因素上,使用著作的质与量。此因素的核心在于:使用的数量是否与其复制的目的「合理必要」(reasonably necessary)[15]

在这里的使用要区分为二个问题,一是为了训练LLM有需要复制到数百万本的书籍吗?二是LLM输出的内容是否过多呢?

就第一个问题,法院认为答案为肯定。双方皆同意,训练任一LLM所需的文字总量为数十亿词汇。若仅使用书籍作为来源,Anthropic每一模型至少需数百万本书籍。即便使用包含书籍与其他文本的混合数据集,仍需数十万本书[16]

其次,就第二个针对输出内容的使用问题,并没有被指控构成侵权。虽然这些高质量作品对LLM训练所带来的益处,并未造成作品本身泄漏给大众。因此,这类复制更显其合理与正当[17]

第四因素:未产生市场替代效果

在第四因素判断上,着重于利用结果是否会对原著作产生市场替代效果。法院认为,用于训练特定LLM的复制品,既未、也不会取代市场对原告著作复本的需求[18]

法院再次强调,Bartz承认,训练LLM并未导致任何原告著作之完整复本或侵权仿作向公众提供[19]。Bartz主张,训练LLM将引发大量与其著作竞争的作品。法院在本判决中先假定此说成立。但原告的主张与其抱怨学童若被训练写作能力提升,将导致市场上出现大量竞争作品并无不同。《著作权法》关注的并非此类创作或竞争替代。《著作权法》的目的是促进原创性著作的产出,而非保护作者免受竞争[20]

Bartz另主张,现在已经出现一个训练AI的著作授权市场,而Anthropic未经授权使用伤害了这个训练授权市场。Anthropic则反驳称,进行此类授权交易的成本将超过其所预期可得之利益,这将迫使其放弃与任何权利人洽谈,甚至终止开发该项技术。法院纪录可支持任一主张,故法院认为,该授权市场的确有可能发展。但即便如此,目前并未成熟,且该市场用途并非《著作权法》赋予Bartz专属控制之对象[21]

综合分析

合理使用分析最后需要综合分析四因素。法院认为,除第二项因素(著作性质)外,其他所有因素皆支持构成合理使用。原因在于,所涉技术是本世代所能见证最具转化性的技术之一[22]

用途2:建立中央通用数据库之行为

法院在本判决中,另外将Anthropic用数字盗版和购买实体书扫描后建立的中央数据库永久保留,是否构成合理使用,独立进行分析。

就下载数字盗版著作以建构中央数据库

法院认为此一行为无法构成合理使用。所有因素皆不利于主张合理使用,尤其这些书籍档案乃非法取得。Anthropic的员工表示,即使某些作品(包括盗版品)已被决定不再用于训练LLM,该公司仍将其永久保留于「通用用途」之数据库中。此类利用用每一项都应有独立正当化理由,而Anthropic并未提说明这类未来用途是否能主张合理使用,仅出于自身的成本与便利考虑[23]

将购买所得之实体书库复本转为数字图书馆复本

就合法购买实体书转为数字文件后销毁实体书,只将数字文件保留在中央数据库中,由于这些书籍是合法购买,法院认为构成合理使用,但其合理性基础与训练用的复制不同。此种情况下,第一因素强烈支持该使用,第三因素亦支持,第四因素则呈中立,仅第二因素略为不利。但在综合考虑下,由于Anthropic购置的原始实体书籍已被拆解销毁,且其数位复本未再被散布,法院认定此类使用属于合理使用[24]

结语

本案是Gen AI训练是否构成合理使用的第一起判决,受各界关注。一方面,其参考了Google Books计划的Authors Guild v. Google案判决,认为Gen AI的输出成果对原著作的利用量与市场替代效果,必须纳入参考;二方面,其认为合法取得著作进行AI训练没问题,但非法取得盗版进行AI训练则有问题。这个区分可能会影响其他Gen AI训练侵权的案件判决。然而,其他法院是否会采取本案提供的观点?我们也只能继续观察。

延伸阅读:

  1. 法院驳回音乐出版商对AI公司的初步禁制令声请:2025年Concord案

备注:

  1. [1] Bartz v. Anthropic PBC, No. C 24-05417 WHA, 2025 WL 1741691, at *1 (N.D. Cal. June 23, 2025).
  2. [2] Id. at *2.
  3. [3] Id. at *2.
  4. [4] Id. at *4.
  5. [5] Id. at *4.
  6. [6] Id. at *4.
  7. [7] Id. at *1.
  8. [8] Id. at *5.
  9. [9] Id. at *5.
  10. [10] Id. at *7-8.
  11. [11] Id. at *8.
  12. [12] Id. at *7.
  13. [13] Id. at *8.
  14. [14] Id. at *14-15.
  15. [15] Id. at *15.
  16. [16] Id. at *15-16.
  17. [17] Id. at *15-16.
  18. [18] Id. at *16.
  19. [19] Id. at *16-17.
  20. [20] Id. at *17.
  21. [21] Id. at *17.
  22. [22] Id. at *18.
  23. [23] Id. at 18.
  24. [24] Id. at 18.

责任编辑:卢颀

【本文仅反映专家作者意见,不代表本报立场。】

作者: 杨智杰
现任: 云林科技大学科技法律所 教授
经历: 云林科技大学科技法律所 副教授
真理大学法律系助理教授
真理大学法律系副教授
学历: 台湾大学法律系
中央大学产业经济所硕士
台湾大学法学博士
专长: 知识产权、美国专利法、美国著作权法、宪法
[print_link]

LEAVE A REPLY

Please enter your comment!
Please enter your name here