
随着人工智能运算需求快速成长,AI 服务器的功率密度与热负载同步攀升,使数据中心散热面临前所未有的挑战。传统CPU时代单颗处理器功耗约200W,而当前高阶GPU与AI加速器的热设计功耗已普遍超过 700W,并正迈向1000W等级;单一机柜总功率亦由过往的10–20 kW 提升至 50–150 kW。如此剧烈的热密度跃升,使单一散热技术已难以支撑 AI 数据中心的可靠运行。为响应此趋势,数据中心散热逐步发展出「分层热管理(Hierarchical Thermal Management,HTM)」架构,透过芯片、服务器、机架(柜)、列、气流缓冲与机房等六个层级的协同设计,建立具备系统性、可扩展性与高可靠度的散热体系。HTM的核心在于将热量自芯片层逐层导出,使各层级各司其职,并以标准化接口相互衔接,确保在极端热负载下仍能维持稳定与高能效,同时提供可因应未来技术演进的模块化架构。

芯片层(Chip Level)
芯片层是整个热管理的起点,也是最受高热流密度影响的环节。随着 AI 加速器与 GPU 的运算性能提升,芯片表面热流密度已超过 1 kW/cm²,远超过多数传统散热材料与结构所能承担的范围。当热自硅晶体产生后,必须穿过一系列热传导接口,包括芯片至散热盖的 TIM1、散热盖本体与其材料结构、以及散热盖至冷板的 TIM2。这些接口构成的总热阻决定芯片能否维持在安全结温(Tj)以下,而任何一环的阻塞,都可能造成芯片热失衡与降频。
因此,芯片层散热的主要策略聚焦于缩短热传路径与降低接口热阻。直接液冷(Direct-to-Chip,D2C)冷板因具备强制液体循环的高效率,已成为高效能运算领域的标准配置。然而随着芯片功率再提升,冷板本身亦不足以单独负荷,促使微信道与微流体散热崛起。将微米级冷却信道直接置于芯片背面甚至整合于封装内层,使液体得以更贴近热源,大幅减少热阻并提高热通量处理能力。
业界亦积极发展双相冷却技术,利用液体汽化吸收潜热,可在不增加流量的前提下大幅提升散热效能。为解决汽化造成的干涸与流阻不稳,冷却结构中往往加入毛细层,用以引导液体回流,使整个冷却循环更加稳定。至于 TIM 与封装材料,则朝向高导热复合材料、液态金属与相变材料(PCM)发展,分别对应连续热阻降低与瞬态热尖峰缓冲的需求。整体而言,芯片层正从「散热器外置」的时代进入「散热结构内建」的时代。
服务器层(Server Level)
服务器层负责整台服务器的系统性散热管理。高功率 GPU、CPU 与 AI 加速器多采用液冷冷板,而内存、电源模块与高速网卡等周边组件仍以气冷为主,形成「液冷主导、气冷补强」的 Hybrid Cooling 架构。此模式使服务器需同时管理液体循环、气流分布、热点监测与智慧风扇控制,显著提高热管理复杂度。
在液冷方面,服务器内歧管将冷却液分配至多个冷板,并回收加热后液体至机柜层;快速接头确保抽换时水路密闭,降低泄漏与污染风险。冷板配置、管路压降与流量设计须精准对应 GPU 功率与热负载,否则易造成冷却不均与效能波动。
在气冷方面,透过智慧风扇调速、热传感器配置与均温板热扩散,确保未液冷组件维持安全温度。整体而言,服务器层是一套混合式热管理系统,其目标是将核心热源交由液冷处理,并以最低风扇功率维持温度均衡,以提升能效、降低噪音与长期维护成本。
机柜层(Rack Level)
当服务器功耗提升至10 kW以上,单柜总功耗往往突破50–150 kW,使机柜层的水路管理成为数据中心散热的骨干。在此层级,液冷管路的可靠性、维护性与可抽换性成为设计核心,而不是单纯的散热效能提升。
机柜歧管是整个水路分配的主干,它将来自CDU的冷却液垂直分配到每一台服务器,并收集热液回流。在频繁抽换服务器的高密度环境中,快速接头确保热插入过程中不会发生滴漏,这对维护成本与风险控制极为重要。此外,在机柜内必须部署完善的泄漏感测系统,以确保任何异常能第一时间被侦测并上传至DCIM系统,必要时可自动关闭水路以避免损失。
由于 Hybrid Cooling 生态仍保留气冷部分,机柜层亦需管理气流方向、风道设计与热/冷通道隔离,以避免局部热回流或空气短路。液冷与气冷并存,使机柜层成为循环水路与气流路径的交汇点,其稳定性与设计成熟度对整个数据中心运作具有关键影响。
列层(Row Level)
列层是串联多个机柜的中介区域,负责更大规模的气流控制与局部冷却协调。当热负载提升至整列数百kW时,仅靠机房级冷却已无法有效处理热通道的高温空气。因此,行级冷却(In-row Cooling)成为列层中最重要的技术。
行级冷却设备通常安装在机柜列的中央或两侧,直接抽取热通道中已加热的空气,并在就近处完成热交换,使冷却路径大幅缩短。这种配置比传统CRAC依赖长距离送风的模式更具效率,也更适合高密度的AI机柜。列级液冷则进一步让水路在行间进行分配,可同时支持多台CDU或作为封闭式液冷循环的主回路,使列层成为液冷与气冷之间的协调节点。
热通道封闭(Hot Aisle Containment,HAC)在此层级扮演重要角色,它将整列机柜排出的热空气封闭在特定区域,使其不与冷通道混合,确保冷却效率与整体 PUE 得以维持在最佳状态。列层的重要性于 AI 时代快速提升,因为高密度热负载已使传统整房冷却的概念变得不足,必须透过列层技术建立更精准的热域管理。
气流缓冲层(Air Plenum Layer,简称Plenum层)
Plenum 层涵盖高架地板下方与吊顶上方,是数据中心气流与压力管理的核心缓冲区,其任务在于维持稳定静压,使冷空气精准送达冷通道,并将热空气有效导向排气端,避免冷热气流混流。
在冷空气 Plenum 中,透过封堵未使用地板孔洞与配置盲板,可防止冷空气短路,确保气流仅经穿孔地板进入服务器进风口;搭配不同开孔率地板、变速风扇与静压传感器,可依负载动态调整各机柜送风量。热空气Plenum则透过垂直排风系统集中导出热气,以降低热通道压力波动并避免热滞留。
由于Plenum层结构复杂且对气流分布高度敏感,高密度数据中心多运用 CFD 仿真预测气流与压差,确保静压稳定与气流均匀。虽不直接产生冷源,Plenum层却是气冷效率与 Hybrid Cooling 稳定运行的关键控制节点。
机房层(Room Level)
机房层是数据中心热管理的最外层,负责提供冷源、保持系统冗余并确保长期运作的能效表现。冷水机组、冷却塔、热交换器、泵组及CRAC/CRAH系统共同构成机房层的主要冷却设备,其中冷水机组与水泵通常占据数据中心冷却能耗的最大比例。
AI 数据中心的热负载上升,使液冷与机房冷却系统必须更紧密整合。例如 CDU 所处的次级水路需与主冷冻水系统可靠介接,确保不同温度的水路能有效隔离并高效交换热量。此层亦必须采用 N+1 或 2N 的冗余架构,使任何单一设备故障皆不影响整体运作。
近年数据中心能效提升的核心策略是自然冷却(Free Cooling)。在气候条件允许下,利用低温外气或冷却水源进行热交换,可部分甚至完全停用冷水机组,大幅降低 PUE。随着永续能源与 ESG 要求高涨,机房层正朝向更高比例的自然冷却、更精细的能源管理与更智慧化的控制策略发展。
HTM分层协作:AI数据中心永续运行的系统基石
AI 时代数据中心热负载的大幅提升,使散热不再只是单一设备的课题,而是从芯片到建筑的全系统工程。分层热管理架构的重要性正快速提升,它让热管理不再是孤立的冷却技术堆栈,而是一套可标准化、可协作、可随技术演进持续升级的完整体系。这六大层级从微观的热阻控制到宏观的冷源供应,形成一条完整的热传递路径:芯片移除热、服务器整合热、机柜分配热、列层协同热、Plenum 优化气流并最终由机房层排散热。未来 AI 芯片功耗仍将提升,散热技术也正向着更近源、更高效、更智慧化的方向演进,而 HTM架构将持续作为支撑数据中心可靠运行的核心基础。
责任编辑:吴碧娥
【本文仅反映专家作者意见,不代表本报及其任职单位之立场】
备注:
[1] https://prod-edam.honeywell.com/content/dam/honeywell-edam/pmt/oneam/en-us/electronic-materials/thermal-interface-materials/documents/hon-ess-adm-the-role-of-tims-in-modern-electronics.pdf?utm_source=chatgpt.com
|















