美国版权局《版权与人工智能报告》第三部分：使用数据训练Gen AI是否构成合理使用？

杨智杰／云林科技大学科技法律研究所教授

2024 年 6 月 1 日

美国版权局于5月9日公布《版权与人工智能》报告（下称《报告》）第三部分，讨论生成式人工智能（Gen AI）系统开发时使用他人著作当作训练数据，是否造成侵权及可否构成合理使用问题。《报告》中核心认定，Gen AI的系统开发与训练确实会造成侵害版权的高度风险，至于是否可以主张合理使用，主要须看最后利用的方式和个案判断。这样的结论引发现任美国总统川普不满，川普5月10日立刻开除原本美国的版权局长。

Gen AI的训练

根据美国前总统拜登于2023年10月30日签署「关于人工智能的安全、可靠与可信发展与使用」行政命令，美版权局要针对AI对版权法产生的冲击，提出研究报告与修法建议。美版权局将《报告》分为三部分陆续公布。《报告》第一部分讨论AI产出侵权问题 — 主要讨论深层伪造技术引发数字仿造肖像权问题（详见《北美智权报》177期）；《报告》第二部分则讨论AI辅助创作是否拥有版权并举例说明（详见《北美智权报》179期）。本次介绍《报告》第三部分内容，主要讨论Gen AI系统开发训练时使用他人著作当作训练数据，是否构成侵权或可主张合理使用问题[1]。终于，美版权局在2025年5月9日公布这份让各界引颈期盼的报告。

Gen AI的训练数据可能引发侵权

《报告》先指出，在Gen AI系统开发需要用著作内容进行训练时，在（1）资料搜集与整理（curation）、（2）训练、（3）生成内容前的检索增强生成（Retrieval-Augmented Generation, RAG）、以及（4）生成内容之产出等四大阶段，都有可能造成侵害版权的问题[2]。

合理使用分析

既然有可能侵权，对Gen AI系统开发商而言，最重要的就是要援引合理使用抗辩。在美国，合理使用抗辩要进行四因素分析，在不同的个案上的四因素分析结果可能有所不同。

第一因素：利用之目的是否应整体考虑？

在第一因素上，首先须确认Gen AI系统开发的目的。《报告》指出，在合理使用分析时，应该针对AI不同的使用情境而做不同考虑。倘若将Gen AI开发利用做切割 — 开发一个Gen AI系统时，可以宣称只是为了科学研究。但后续利用时却又发现可能有明显侵权的问题而无法使用。故仍应该将整体使用一起评估，而非切割评估[3]。

第一因素下，是否具备转化性价值？

而Gen AI用途是否具有「转化性」价值？若将大型且多样的资料集中用于训练Gen AI的基础模型，通常具有转化性。但若Gen AI系统的利用目的是产出与训练数据中受版权保护作品实质相似的输出内容，则其转化性较低。例如，一个基础图像模型若进一步以某热门动画影集的图像进行训练，并被用于生成该影集角色的图像，就可能不具有转化性[4]。

《报告》指出，许多使用情况则介于两者之间。例如，某些模型的用途可能与其训练所依据的版权作品具有相似的目的与特征，但却不会产出实质相似的内容。当一个模型是针对某类型作品进行训练，并用以产生旨在吸引相同受众的内容时，其转化性充其量也只是轻微的。例如，用某声音演员的声音训练出一个可以生成同样声音的AI，这个转化性价值很低[5]。

第二因素：被利用著作之性质

第二因素是看被利用著作的「性质」。《报告》指出，由于Gen AI模型经常使用各种类型的著作进行训练，包括创作性高与具功能性的著作、已发表与未发表的著作，具体情况会因模型与所涉著作的不同而有所差异。大型语言模型（LLM）通常以高度创作性的著作（如小说）与偏重事实或功能性的内容（如计算机程序码或学术文章）同时进行训练。当所涉著作具有较高的创作性，或是尚未发表时，第二项因素的判断将不利于主张合理使用[6]。

第三因素：利用之质与量

第三因素则是看「利用的数量」，通常必须看其是否是为了利用目的所必要之范围。为了开发Gen AI系统，在训练时是要使用大量、海量的数据，且一般是全部数据的使用。这对开发训练阶段而言的使用，或许是必要的，通常可以主张合理使用[7]。

但《报告》指出，也要思考Gen AI系统对公众公开的著作数量。其是参考《Google图书馆计划》引发的合理使用争议案，当时法院认为，Google图书扫描后，让用户查询一页只给看一个片段，限制使用者能够看到的数量，以避免对原著作的市场取代。在使用者使用Gen AI阶段，若Gen AI产出过多的内容，可能对著作的利用数量过多而不利于主张合理使用。《报告》指出，如果AI公司可以采用防护机制与其他方法，以预防潜在的侵权输出，则可增加主张合理使用的机会[8]。

第四因素：对著作之伤害

Gen AI的内容是否会对训练资料的原著作造成伤害？一般而言，Gen AI产出的内容未必会取代特定的著作，故不会对特定著作的销售造成伤害。但是，若训练行为使模型具备产出原作品逐字或实质相似内容的能力，而这些内容又能轻易被最终用户取得，则该模型输出可能会取代对原作品的购买需求，从而造成原作品的销售损失。例如，若AI涉及对新闻网站之RAG，在生成过程中检索相关内容以增强AI响应，使输出内容更有可能包含可受保护的表达形式，包括衍生性摘要或节略版本[9]。

《报告》另外指出一种不明显的直接市场替代现象，就是当Gen AI可以快速生成类似的作品时，会使市场上充斥了大量的该类作品，对训练数据同类型作品的市场构成严重稀释风险。这代表作者的作品在市场上将面临更多销售竞争，同时受众也将更难找到原创作品。例如，AI的输出可模仿特定创作者的风格，而这种风格本身可能不受到版权保护。即便Gen AI生成内容未与某特定作品构成「实质相似」，训练中使用作品所促成的风格模仿，仍可能影响原创者的市场[10]。

另外，此时也要考虑到，所有人类创作者的创作，也可以慢慢发展出集体的授权方式，授权Gen AI系统开发者作训练使用。当合法可行的集体授权方式出现时，当Gen AI系统开发商未经授权使用，即会侵害这种著作集体授权市场[11]。

综合各因素整体评估

《报告》指出，由于Gen AI涉及多元的使用方式与影响情境，目前无法对未来诉讼结果预作判断。在光谱的一端，若Gen AI用于非商业性研究或分析目的的使用行为，若不会使训练作品的部分内容再现于输出结果中，较可能被认定为合理使用。但若从盗版来源复制具表达性的作品，并用以生成不受限制的内容，与原作品在市场中竞争，且存在可合理取得的授权途径，则此类使用则不太可能构成合理使用。

然而，更多的案例可能介于光谱两端中间的灰色地带，也就是说，到底能否构成合理使用？《报告》结论是仍然要从个案作判断[12]。

报告结论对Gen AI开发及训练存在易侵权风险、美版权局长被开除

川普在2025年1月20日一上任就废除了拜登的AI总统令，其表达的态度是，不应对AI发展有过度的法规限制。然而，《报告》第三部分涉及探讨Gen AI系统开发是否侵害版权问题，就非常敏感。且第三部分的最终结论，还是强调Gen AI系统的开发与提供极有可能侵害版权，但是否能主张合理使用仍要依不同个案情况作个别判断。这种结论对Gen AI系统开发与提供者来说，仍然因为《版权法》存在不确定性，这违背了川普鼓励AI发展应不受管制的态度。因此，在《报告》公布隔天的5月10日，川普就解除了原本美版权局局长Shira Perlmutter的职务，表示其对《报告》的内容很不满意。

备注：

[1] U.S Copyright Office, Copyright and Artificial Intelligence Part 3: Generative AI Training (pre-publication version), https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf.
[2] Id. at 26-31.
[3] Id. at 36.
[4] Id. at 45-46.
[5] Id. at 46.
[6] Id. at 54.
[7] Id. at 57.
[8] Id. at 59-60.
[9] Id. at 63-64.
[10] Id. at 65-66.
[11] Id. at 70-71.
[12] Id. at 74.

责任编辑：卢颀

【本文仅反映专家作者意见，不代表本报立场。】

作者：	杨智杰
现任：	云林科技大学科技法律所教授
经历：	云林科技大学科技法律所副教授真理大学法律系助理教授真理大学法律系副教授
学历：	台湾大学法律系中央大学产业经济所硕士台湾大学法学博士
专长：	知识产权、美国专利法、美国著作权法、宪法

友善列印

友善打印

Printer-friendly