突破AI应用瓶颈,释放算力成关键!

吴碧娥╱北美智权报 编辑部

0
79

随着人工智能(AI)和算力需求提升,全球进入高效AI建设时代,企业对高性能计算(HPC)的需求激增,AI热潮不只带动硬件供应链,AI算力更成为企业数字转型的重要计算设备,在图形处理器(GPU)采购成本较以往增加10倍的情况下,如何兼顾效益与成本导入AI,已是企业建置AI基础建设的关键课题。

图1. TrendForce 日前举办《CompuForum 2025智链驱动,释放AI算力》研讨会,邀请业界专家分享AI算力突破及最新商机;图片来源:TrendForce提供

随着时代发展,运行AI模型需要极为复杂的计算及大量数据处理,传统计算设备无法满足的需求, AI计算中心因应而生。AI计算中心是指专门为人工智能应用提供高效运算资源与基础设施的集中式平台或设施,主要功能是为AI模型训练提供大规模的计算能力,特别适用于深度学习这类需要大量计算的任务,储存并处理来自各种来源的海量数据。AI计算中心通常采取云端或虚拟化技术,透过部署GPU、TPU、FPGA等大量高性能运算设备,以支持AI模型的训练、推理以及大规模数据处理等任务。由于自建计算中心既昂贵又费时,从建置AI运算中心的到算力租借,成为一种快速进入AI应用场景的新兴商业模式[1]

AI需求为数据中心带来新挑战

在TrendForce 举办「2025智链驱动 释放AI算力」研讨会中,美超威(Supermicro)解决方案架构师许铭德分享如何打造AI/ HPC数据中心。许铭德指出,随着对高阶人工智能应用的需求不断成长,AI和HPC需求的日益增加,数据中心必须不断发展,以支持大量运算负载、关键任务工作负载和液体冷却需求,企业必须灵活应对市场变化,并采用更创新的解决方案,才能满足客户的多元需求。美超威基于模块化理念建构出「数据中心建置模块解决方案」(DCBBS),成为美超威应对AI快速变革的核心竞争策略。

DCBBS能简化并缩短AI 液冷数据中心的建置时程,有效降低建置和营运成本,使客户能够轻松构建数据中心基础设施,最快可在三个月内完成部署。DCBBS涵盖所有关键基础设施组件,包括服务器、储存、网络、机架、液冷、软件、服务和支持,采用标准化且灵活的解决方案架构,可处理最苛刻的人工智能数据中心训练和推理工作负载,简化数据中心的规划、扩建同时降低成本,是适用于所有关键运算和冷却基础架构的解决方案。美超威也持续与辉达(NVIDIA)等大型企业合作提供模块化设计,并从边缘计算到大型资产公司建立起完整的产品线,不仅能替客户节省成本,也能更贴近客户的实时需求。

AI基础设施建置的考虑要点

AI运算需求快速成长,全球进入高效能AI建设时代,同一时间,GPU采购成本增加10倍,GPU算力对AI导入至关重要,有效运用GPU算力成为企业一大课题。数字无限执行长陈文裕指出,AI算力管理不只是管理算力,而是全面的AI基础设施管理,在建置AI基础设施时,必须考虑如何在同一平台支持AI机器学习训练与HPC、满足各种算力组合的需求,还要能跨平台支持不同厂牌GPU卡片,降低艰深的学习曲线。

AI 基础设施管理面临多种挑战,必须考虑算力与储存配置,万一缺乏控制和优先次序、利用率低、成本高,便难以获得能见度和更好的决策,导致用户仍然需要更多GPU,解决之道在于如何有效让AI 算力发挥最大效果。数字无限所开发出的AI基础设施管理平台AI-Stack,用单一平台即可快速落实多种AI服务需求,同时解决开发及部署AI服务时会遇到的问题,AI-Stack平台可根据需求将训练任务分配至多个节点运算,并利用分布式训练技术,将多个容器组织成训练群组,平行分散处理巨量数据,有效缩减模型训练时间,提升运算效率和资源利用率,不仅在2025 COMPUTEX荣获「Best Choice Award」Computer & System类别奖,也被NVIDIA 认证为Solution Advisor。

陈文裕表示,人工智能基础设施平台的关键就是资源共享,将GPU 集中到一个集群中,以简化管理并提高效率,数字无限掌握的关键技术,就是将单张GPU灵活切分为多个虚拟单位,提供多任务并行且稳定地使用,也能整合多片GPU进行跨节点的高效运算,大幅提升运算效率与资源使用率,在协助企业导入AI时,利用切割技术让GPU使用率从30%提升到90%、提升10倍的工作负载效率和10倍的投资效益,并大幅缩短开发建置时间。

微调训练扩大AI落地应用

AI与边缘运算应用场景日益增多,需要更多AI软件或是专属边缘AI模型,而要将AI导入政府机构、研究机构及私人企业,更需要边缘、安全的地端AI设备来进行AI模型「微调训练」(Post-training/Fine-tuning),在能兼顾数据安全和降低成本下,才有可能进一步扩大AI的落地应用。

微调训练是指在已经训练好的模型基础上,透过进一步调整让模型的输出更符合预期,藉由微调取代重新训练一个新的模型,能够省去训练新模型的高昂成本,并优化模型在特定任务上的表现。群联执行长潘健成指出,百工百业在导入AI模型微调训练时,往往会发现AI服务器成本太高,动辄要花费数百万让一般中小企业望之却步,或是担心数据上云会有资安风险。针对这两大痛点,群联推出主打边缘地端AI模型训练与推论的工作站「aiDAPTIV+」,强调为一般大众所打造,在预算上更加低成本与经济实惠。群联这项解决方案适用于边缘地端AI模型的训练,还可以提升边缘AI的推论效能,能够实现HBM、GDDR 内存与成本效益更高的闪存之间的动态资源调配,有效降低硬件支出,同时大幅减少模型训练对昂贵且耗电GPU显示适配器的需求,而且只需使用一般的电力与冷却设备,无论办公室、学校教室或在家都能部署。

数据源:

2025/6/20,TrendForce「CompuForum 2025 –智链驱动 释放AI算力」研讨会

备注:

[1] 参考数据:AI算力中心是什么?算力需求衍生新商机?

作者: 吴碧娥
现任: 北美智权报主编
学历: 政治大学新闻研究所
经历: 北美智权报资深编辑
骅讯电子总经理室特助
经济日报财经组记者
东森购物总经理室经营企划

LEAVE A REPLY

Please enter your comment!
Please enter your name here