AI检索增强生成摘要是否侵害新闻文章版权?纽约南区法院2025年11月Cohere案裁定

杨智杰/云林科技大学 科技法律研究所 教授

0
474
图片来源 : shutterstock、达志影像

生成式人工智能(Gen AI)开发者及业者为了避免回答发生AI幻觉(hallucinate),因此采取检索增强生成(Retrieval Augmented Generation, RAG)技术 — 开启此技术后,AI会先上网查询网页,确认数据正确性,再回答用户问题。
然而,美国发生多家新闻集团连手控告一家提供AI生成新闻服务的公司Cohere,主张其透过Gen AI所生成之新闻摘要,侵害这些新闻集团的新闻文章著作。2025年11月美国纽约南区联邦地区法院(纽约南区地院)作成初步裁定,认为原告举出了许多实例可初步证明,被告开发透过RAG增强的AI生成新闻摘要确实可能侵害了原告文章中的表达部分而构成侵权;此案件先前于北美智权报194期针对法院商标权侵害裁定[1]进行介绍,本文则是进一步探讨案件中版权侵害裁定的内容。

原告新闻联盟与被告Cohere所开发的AI模型Command

原告是由多家美国报纸和杂志出版社所组成的联盟,其中包括出版日报《The Oregonian》的Advance Local Media,以及出版杂志《Vogue》、《The New Yorker》、《GQ》、《Vanity Fair》、《Wired》、《Bon Appétit》、《Architectural Digest》的Condé Nast等[2]。案件名称以Advance Local Media为代表。

被告Cohere为一家加拿大公司,从事AI模型之开发、营运及授权业务。Cohere的主要产品为一组大型语言模型(LLMs),统称为「Command模型家族」(以下简称Command)。Cohere将Command营销为一款特别适合商业社群使用的「知识助理」,并宣称其「旨在缩短研究与内容分析流程」。Cohere亦宣传Command可作为接收最新新闻的工具[3]

检索增强RAG生成技术

Gen AI共通的问题就是会虚构文句,也就是出现一般所讲的AI幻觉。为避免此问题,Gen AI开发者及业者发展出一种技术 — 称为「检索增强生成」(RAG)。而被告产品Command特别强调此功能,在生成响应时会先存取外部数据源,使Command得以维持信息之实时性。然而,Cohere将第三方网站,包括出版商之网站,作为Command进行RAG的内容来源[4]

当开启RAG功能,Command在响应用户查询时,会先搜寻抓取网络上的最新新闻文章,而在输出时,会重制这些新闻文章的部分内容。并可能会提供使用者其抓取且复制新闻文章的完整逐字内容、实质性之摘录,或具替代性之摘要[5]

图1. 原告起诉书中所附的其中一个例子,蓝色部分为Command将原文章逐字复制的内容;数据源:Advance Local Media LLC v. Cohere Inc., No. 25-cv-1305 (CM), Compl. ¶ 99 (S.D.N.Y. Feb. 13, 2025).

而当RAG功能关闭时,Command所回答的新闻摘要又往往会产生AI幻觉 — 完全虚构文章之文字内容,并宣称提供的内容是来自原告出版社某具商标权刊物的某一篇报导[6]

原告等因此于2025年2月向纽约南区地院,对Cohere提起诉讼,并主张版权与商标权之侵害。被告则对于其中部分主张,提出明显不具事实理由而请求直接驳回(motion to dismiss)[7]。纽约南区地院法官McMahon则于2025年11月13日作成裁定,认为初步来看这些主张都有足够事证,而驳回被告Cohere的这些请求[8]

生成新闻摘要是否只使用事实部分?

本文只讨论该案中的一项议题,就是Command用RAG生成的新闻摘要,是否会侵害原告新闻文章之著作权。本案之RAG技术,有接触原告之新闻文章,这点没有争议。争议点在于,Command所产生之摘要,是否与原告著作中受版权保护之表达要素,构成实质相似?[9]

版权法并不保护事实。由于新闻文章中许多都是事实,故不受保护。倘若他人参考一新闻报导,只撷取新闻报导中的事实,但以「不同编排、不同句型结构及不同措辞」呈现,不会侵害版权[10]。虽然事实本身不具版权性,但是由不同撰写者对相同事实所为的汇编(factual compilations)[11],或者个人的文采、修辞与论述,这些表达性部分则受到版权保护。

被告Cohere主张,Command所生成之多数摘要,并未复制任何受版权保护之表达,因为Command「系将抽象化之事实整合至全新且原创之句子之中」。Cohere另主张,即便该等摘要确实有复制出版商作品之部分内容,但其复制程度亦极为有限,不足以构成侵权[12]

法院认为Command确实侵害原告新闻报导中的表达部分

法官McMahon认为,由于事实不受保护,Cohere可以重制并再利用出版商作品中所包含之基础事实。因此,纽约南区地院仅着重出版商对事实呈现方式中所包含之原创要素[13]

McMahon认为,出版商的起诉书与证据中,已充分主张Command生成内容在量与质上均构成实质相似。出版商主张,Command之输出乃对原告文章进行改写或逐字复制,而该等摘要「远超过仅为有限事实之陈述」。其方式包括「直接撷取表达内容,或模仿原文之结构、写作风格及标点使用」[14]

原告起诉书提出了75则Command生成内容与原新闻比对之实例 — 其中50则例子,系原告指称包含对原告原创作品之逐字复制;其余25则例子,则显示逐字复制与高度近似改写之混合情形。Cohere虽然主张Command之所有摘要均「在风格、语气、篇幅及句型结构上」与出版商文章不完全相同。但法院认为,从原告所提出之例子显示,至少在部分情形下,Command的输出内容与原告的新闻文章几乎完全相同[15]

例如,对于提示词「请告诉我关于未决定选民之不可知性」,Command所生成之输出内容,直接复制《The New Yorker》某篇文章中十个段落中的八个段落,且仅做极为细微之变动。由该例可显示,Command之输出内容是直接逐字复制并贴上原告文章之完整段落。事实上,原告更主张,被告是刻意设计其系统以达成此种结果。法院认为,上述初步证据已足以形成应由陪审团审理之事实争点[16]

被告Cohere另主张,即便摘要确有复制部分出版商之表达内容,其复制程度仍属极少。其引用第二巡回上诉法院于Nihon案之判决[17],主张「复制『约百分之二十之文章内容』通常不构成实质相似,但复制『远超过半数之文本』则通常构成实质相似」。然而,法官McMahon认为,当初Nihon案判决明确指出,其「并无意建立任何原则,认为在量的层面上,复制百分之二十之版权作品即永不构成实质相似」,因为「不可能仅透过简单之字数计算来判断侵权;两作品之量化分析,必须始终在其质性特征之脉络下进行」[18]

因此,McMahon驳回被告之请求,认为被告Cohere之AI服务Command所生成摘要确实侵害原告新闻联盟的新闻文章版权部分,因已有初步事证,而可继续将此版权侵害议题交由陪审团审判。

备注:

  1. [1] 北美智权报194期,2025/11/16,王思原,从Cohere案看生成式AI之商标侵权争议
  2. [2] Advance Local Media LLC v. Cohere Inc., No. 25-cv-1305 (CM), Compl. ¶ 11-12 (S.D.N.Y. Feb. 13, 2025).
  3. [3] Advance Loc. Media LLC v. Cohere Inc., No. 25-CV-1305 (CM), 2025 WL 3171892, at *1 (S.D.N.Y. Nov. 13, 2025).
  4. [4] Id. at *1.
  5. [5] Id. at *2.
  6. [6] Id. at *2.
  7. [7] Id. at *2.
  8. [8] Id. at *2-11.
  9. [9] Id. at *3.
  10. [10] Id. at *3.
  11. [11] Id. at *3.
  12. [12] Id. at *3.
  13. [13] Id. at *3.
  14. [14] Id. at *3.
  15. [15] Id. at *3.
  16. [16] Id. at *3.
  17. [17] Nihon Keizai Shimbun, Inc. v. Comline Bus. Data, Inc., 166 F.3d 65, 71 (2d Cir. 1999).
  18. [18] Advance Loc. Media LLC v. Cohere Inc., No. 25-CV-1305 (CM), 2025 WL 3171892, at *4. 引用Nihon Keizai Shimbun, Inc. v. Comline Bus. Data, Inc., 166 F.3d 65, 71.

责任编辑:卢颀

【本文仅反映专家作者意见,不代表本报立场。】

作者: 杨智杰
现任: 云林科技大学科技法律所 教授
经历: 云林科技大学科技法律所 副教授
真理大学法律系助理教授
真理大学法律系副教授
学历: 台湾大学法律系
中央大学产业经济所硕士
台湾大学法学博士
专长: 知识产权、美国专利法、美国著作权法、宪法

LEAVE A REPLY

Please enter your comment!
Please enter your name here