开源技术在AI潮流下的重要性:风险与进步共存

Sheryl Lu/产业分析师

0
7

随着专有人工智能(AI)模型的成本面考虑、云端基础设施的普及化,以及开源技术(open source technology)社群逐渐成熟和活跃,使开源AI模型蓬勃发展,如由Meta开发的Llama、由Google推出的Gemma及由Microsoft开发的Phi-2等代表性基础模型,可兼顾运算效能、轻量化与企业部署弹性,且提供用户/开发者客制化地调整、部署并整合至特定应用情境中。

随着生成式AI(Gen AI)正加速进入商业应用阶段,各界愈加重视模型的开发来源透明度、应用过程的掌控程度以及推论结果的可验证性,亦使开源技术逐渐成为企业导入AI的优先考虑。

图片来源 : shutterstock、达志影像

企业已逐渐扩大采用开源技术,当前应用集中于模型与开发工具面向

针对开源技术在企业的部署程度,麦肯锡顾问公司(McKinsey & Company,下称麦肯锡)访问700多位来自41个国家的技术开发者,并与Mozilla基金会以及帕特里克·J·麦戈文基金会(Patrick J. McGovern Foundation)在2025年4月21日联合出具「人工智能时代的开源技术报告」(Open source technology in the age of AI),该报告指出开源技术已普遍在企业端应用,以技术堆栈(tech stack)区分,开源技术多用于模型(models)、开发工具(tools)及数据(data),相对而言在托管/推论运算基础设施(hosting / inference compute)以及模型修改(modifications)则使用度较低,麦肯锡推测原因可能是,如vLLM等开源AI推论运算模块推出时间尚短,或是使用者倾向以企业内部工具及专有数据进行开发。

技术堆栈(Tech stack) 功能说明 代表性开源专案 企业定期使用比例
模型(Models) 包含模型权重(如预训练、检查点、调适版本)与训练所需之程序代码 Mistral、Gemma、Llama、GPT-J、Stable Diffusion、Aya(Cohere) 63%
开发工具(Tools) 支持AI开发与部署的工具,包括模型编排、资安防护、可观测性与效能评估等 PyTorch、Tensorflow、LangChain、Llama Guard 59%
资料(Data) 用于模型预训练、评估、微调与偏好学习的开源数据集 Common Voice、The Pile、Dolma 56%
使用者体验/应用(User Experience/Applications) 直接提供给终端使用者的应用服务与体验 HuggingChat 49%
API 与指令处理(APIs & Prompt Handling) 提供外部存取与指令管理的开源接口,强化模型在特定场景下的实用性 Hugging Face Serverless Inference API 49%
托管/推论运算基础设施(Hosting / Inference Compute) 提供模型托管与推论执行之服务器或云端运算设施 llamafile、NomicAI、Ollama、llama.cpp 32%
模型修改(Modifications) 针对基础模型进行微调或整合模块,以满足特定应用需求 PEFT、LoRa 25%

表1. 七项技术堆栈分类与说明;数据源:麦肯锡;整理制表:北美智权报/Sheryl Lu

开源技术模型可达成高效部署与技术自主,揭示企业导入的三项关键优势

随着AI技术持续普及,企业导入AI时必须考虑资源分配、性能、用户体验及技术灵活性等因素,而开源模型正因具备上述优势,逐渐成为企业发展AI策略的重要选项之一。以下详述各项效益:

  • 成本效益:在实务应用上,开源技术具备相对低廉的执行与维护成本,可有效降低中小企业与新创导入AI模型的门坎。企业无需支付高额的专有API授权费用,即可利用现有模型进行修改与微调,快速应用于特定场景,进而节省自建模型与完整训练流程所需的庞大资源与时间成本。
  • 高性能和易用性:根据麦肯锡调查,曾同时使用开源与专有模型的用户多数对开源工具表示高度满意,主因在于其具备显著的成本优势,同时仍能提供接近商用模型的效能表现,且开发、部署与整合流程相对易于上手,此显示越来越多企业已成功导入开源模型,并从中获得效益。
  • 灵活性采用开源模型可降低对单一AI模型供货商的依赖,且可降低技术转移成本,使企业能更灵活且低成本地调整或切换AI模型或相关AI工具,提升技术部署的灵活性。此外,企业可更快速地响应新颖的AI技术变动或新萌发的市场需求,取得竞争先机,而若要进行技术升级或切换时,亦能大幅缩短系统停机或调整的时间成本。

从数据可靠度、隐私到法规压力,开源技术导入背后的风险与挑战

虽然开源模型具成本、效能及使用弹性等优势,然而开发者仍需留意以下风险:

  • 质量与数据信任度:模型的训练与微调过程高度依赖数据质量,故若数据源不明遭植入恶意样本,可能导致模型输出异常,故企业可建立标准化测试框架,定期执行模型准确性与偏差检测,并导入数据集源文档化制度,提升训练数据的可追溯性与可信度,以降低模型异常输出与资安风险。
  • 资料隐私:开源AI模型的透明性虽是一大优势,但也带来潜在的数据隐私风险。许多开源框架在训练过程中仰赖大量数据输入,若数据源未经严格控管,企业机密信息可能在模型中被使用及散播,故企业导入或训练开源模型时,必须重视使用审查机制,且可采用模型测试及触发检测等巩固数据隐私性
  • 合规随着美国与欧盟等主要市场逐步推行更严格的AI法规及治理框架,采用开源模型的企业可能面临法规遵循上的挑战。由于新法规通常要求模型透明度、可解释性与风险管控能力,企业若无足够资源处理复杂的法规需求,发展可能因此受到限制,更甚者可能影响其市场竞争力与技术部署速度。

开源与专有模型的混合部署模式渐成主流,打造具韧性的AI策略架构

开源技术在当前AI时代下扮演的角色已逐渐受到开发者社群及企业的重视,根据Stanford HAI研究院发布的「2024年人工智能指数报告」(Stanford HAI Releases 2024 Artificial Intelligence Index Report),全球最大的开源技术社群Github上的AI项目,2024年较2023年增长40.3%,而因开源模型在成本、效能与弹性上的优势,虽然伴随资安、法规与智慧财产等风险,但透过设立相关管理机制,风险及挑战仍可被企业有效控管。

面对多样的应用场景与合规需求,企业逐渐转往采用开源与专有模型的「混合策略」,将此二种模型同时运用在技术堆栈上,举例来说,在内部流程、自主数据处理与客制化需求场景中优先部署开源模型,在需要高稳定性、可实时大规模使用的情境下则采用专有模型,这种混合策略可有效降低单一技术及资源使用的依赖,同时强化自主掌控力与落地应用效率,根据麦肯锡的调查,多数受访使用者有意采用此类混合模型。对企业而言,将开源模型纳入企业整体AI策略,不仅是研发技术架构上的关键布局,更是强化创新动能与建立差异化竞争优势的重要基石。

数据源:

  1. Open source technology in the age of AI. Published on April 21, 2025, McKinsey & Company, Partrck J McGovern Foundation & Mizilla Foundation.
  2. Stanford HAI Releases 2024 Artificial Intelligence Index Report. April 15, 2024, Library Journal.

责任编辑:卢颀

【本文仅反映专家作者意见,不代表本报立场。】

作者: Sheryl Lu
学历: 美国伊利诺大学香槟分校财金所
经历: 私募基金分析师
专长: 产业分析与市场研究

LEAVE A REPLY

Please enter your comment!
Please enter your name here