AI運算熱浪下的散熱革命:從晶片到機房的AI資料中心熱管理系統工程

芮嘉瑋╱財團法人中技社 科技暨工程研究中心主任

0
488
圖片來源 : shutterstock、達志影像

隨著人工智慧運算需求快速成長,AI 伺服器的功率密度與熱負載同步攀升,使資料中心散熱面臨前所未有的挑戰。傳統CPU時代單顆處理器功耗約200W,而當前高階GPU與AI加速器的熱設計功耗已普遍超過 700W,並正邁向 1000W 等級;單一機櫃總功率亦由過往的 10–20 kW 提升至 50–150 kW。如此劇烈的熱密度躍升,使單一散熱技術已難以支撐 AI 資料中心的可靠運行。為回應此趨勢,資料中心散熱逐步發展出「分層熱管理(Hierarchical Thermal Management,HTM)」架構,透過晶片、伺服器、機架(櫃)、列、氣流緩衝與機房等六個層級的協同設計,建立具備系統性、可擴展性與高可靠度的散熱體系。HTM的核心在於將熱量自晶片層逐層導出,使各層級各司其職,並以標準化介面相互銜接,確保在極端熱負載下仍能維持穩定與高能效,同時提供可因應未來技術演進的模組化架構。

圖1. AI資料中心散熱範疇;圖片來源:芮嘉瑋改繪自Honeywell關於TIM技術說明白皮書[1]

晶片層(Chip Level

晶片層是整個熱管理的起點,也是最受高熱流密度影響的環節。隨著 AI 加速器與 GPU 的運算性能提升,晶片表面熱流密度已超過 1 kW/cm²,遠超過多數傳統散熱材料與結構所能承擔的範圍。當熱自矽晶體產生後,必須穿過一系列熱傳導介面,包括晶片至散熱蓋的 TIM1、散熱蓋本體與其材料結構、以及散熱蓋至冷板的 TIM2。這些介面構成的總熱阻決定晶片能否維持在安全結溫(Tj)以下,而任何一環的阻塞,都可能造成晶片熱失衡與降頻。

因此,晶片層散熱的主要策略聚焦於縮短熱傳路徑與降低介面熱阻。直接液冷(Direct-to-Chip,D2C)冷板因具備強制液體循環的高效率,已成為高效能運算領域的標準配置。然而隨著晶片功率再提升,冷板本身亦不足以單獨負荷,促使微通道與微流體散熱崛起。將微米級冷卻通道直接置於晶片背面甚至整合於封裝內層,使液體得以更貼近熱源,大幅減少熱阻並提高熱通量處理能力。

業界亦積極發展雙相冷卻技術,利用液體汽化吸收潛熱,可在不增加流量的前提下大幅提升散熱效能。為解決汽化造成的乾涸與流阻不穩,冷卻結構中往往加入毛細層,用以引導液體回流,使整個冷卻循環更加穩定。至於 TIM 與封裝材料,則朝向高導熱複合材料、液態金屬與相變材料(PCM)發展,分別對應連續熱阻降低與瞬態熱尖峰緩衝的需求。整體而言,晶片層正從「散熱器外置」的時代進入「散熱結構內建」的時代。

伺服器層(Server Level

伺服器層負責整台伺服器的系統性散熱管理。高功率 GPU、CPU 與 AI 加速器多採用液冷冷板,而記憶體、電源模組與高速網卡等周邊元件仍以氣冷為主,形成「液冷主導、氣冷補強」的 Hybrid Cooling 架構。此模式使伺服器需同時管理液體循環、氣流分布、熱點監測與智能風扇控制,顯著提高熱管理複雜度。

在液冷方面,伺服器內歧管將冷卻液分配至多個冷板,並回收加熱後液體至機櫃層;快速接頭確保抽換時水路密閉,降低洩漏與污染風險。冷板配置、管路壓降與流量設計須精準對應 GPU 功率與熱負載,否則易造成冷卻不均與效能波動。

在氣冷方面,透過智能風扇調速、熱感測器配置與均溫板熱擴散,確保未液冷元件維持安全溫度。整體而言,伺服器層是一套混合式熱管理系統,其目標是將核心熱源交由液冷處理,並以最低風扇功率維持溫度均衡,以提升能效、降低噪音與長期維護成本。

機櫃層(Rack Level

當伺服器功耗提升至10 kW以上,單櫃總功耗往往突破50–150 kW,使機櫃層的水路管理成為資料中心散熱的骨幹。在此層級,液冷管路的可靠性、維護性與可抽換性成為設計核心,而不是單純的散熱效能提升。

機櫃歧管是整個水路分配的主幹,它將來自CDU的冷卻液垂直分配到每一台伺服器,並收集熱液回流。在頻繁抽換伺服器的高密度環境中,快速接頭確保熱插拔過程中不會發生滴漏,這對維護成本與風險控制極為重要。此外,在機櫃內必須部署完善的洩漏感測系統,以確保任何異常能第一時間被偵測並上傳至DCIM系統,必要時可自動關閉水路以避免損失。

由於 Hybrid Cooling 生態仍保留氣冷部分,機櫃層亦需管理氣流方向、風道設計與熱/冷通道隔離,以避免局部熱回流或空氣短路。液冷與氣冷並存,使機櫃層成為循環水路與氣流路徑的交匯點,其穩定性與設計成熟度對整個資料中心運作具有關鍵影響。

列層(Row Level

列層是串聯多個機櫃的中介區域,負責更大規模的氣流控制與局部冷卻協調。當熱負載提升至整列數百kW時,僅靠機房級冷卻已無法有效處理熱通道的高溫空氣。因此,行級冷卻(In-row Cooling)成為列層中最重要的技術。

行級冷卻設備通常安裝在機櫃列的中央或兩側,直接抽取熱通道中已加熱的空氣,並在就近處完成熱交換,使冷卻路徑大幅縮短。這種配置比傳統CRAC依賴長距離送風的模式更具效率,也更適合高密度的AI機櫃。列級液冷則進一步讓水路在行間進行分配,可同時支持多台CDU或作為封閉式液冷循環的主迴路,使列層成為液冷與氣冷之間的協調節點。

熱通道封閉(Hot Aisle Containment,HAC)在此層級扮演重要角色,它將整列機櫃排出的熱空氣封閉在特定區域,使其不與冷通道混合,確保冷卻效率與整體 PUE 得以維持在最佳狀態。列層的重要性於 AI 時代快速提升,因為高密度熱負載已使傳統整房冷卻的概念變得不足,必須透過列層技術建立更精準的熱域管理。

氣流緩衝層(Air Plenum Layer,簡稱Plenum層)

Plenum 層涵蓋高架地板下方與吊頂上方,是資料中心氣流與壓力管理的核心緩衝區,其任務在於維持穩定靜壓,使冷空氣精準送達冷通道,並將熱空氣有效導向排氣端,避免冷熱氣流混流。

在冷空氣 Plenum 中,透過封堵未使用地板孔洞與配置盲板,可防止冷空氣短路,確保氣流僅經穿孔地板進入伺服器進風口;搭配不同開孔率地板、變速風扇與靜壓感測器,可依負載動態調整各機櫃送風量。熱空氣Plenum則透過垂直排風系統集中導出熱氣,以降低熱通道壓力波動並避免熱滯留。

由於Plenum層結構複雜且對氣流分布高度敏感,高密度資料中心多運用 CFD 模擬預測氣流與壓差,確保靜壓穩定與氣流均勻。雖不直接產生冷源,Plenum層卻是氣冷效率與 Hybrid Cooling 穩定運行的關鍵控制節點。

機房層(Room Level

機房層是資料中心熱管理的最外層,負責提供冷源、保持系統冗餘並確保長期運作的能效表現。冷水機組、冷卻塔、熱交換器、泵組及CRAC/CRAH系統共同構成機房層的主要冷卻設備,其中冷水機組與水泵通常佔據資料中心冷卻能耗的最大比例。

AI 資料中心的熱負載上升,使液冷與機房冷卻系統必須更緊密整合。例如 CDU 所處的次級水路需與主冷凍水系統可靠介接,確保不同溫度的水路能有效隔離並高效交換熱量。此層亦必須採用 N+1 或 2N 的冗餘架構,使任何單一設備故障皆不影響整體運作。

近年資料中心能效提升的核心策略是自然冷卻(Free Cooling)。在氣候條件允許下,利用低溫外氣或冷卻水源進行熱交換,可部分甚至完全停用冷水機組,大幅降低 PUE。隨著永續能源與 ESG 要求高漲,機房層正朝向更高比例的自然冷卻、更精細的能源管理與更智能化的控制策略發展。

HTM分層協作:AI資料中心永續運行的系統基石

AI 時代資料中心熱負載的大幅提升,使散熱不再只是單一設備的課題,而是從晶片到建築的全系統工程。分層熱管理架構的重要性正快速提升,它讓熱管理不再是孤立的冷卻技術堆疊,而是一套可標準化、可協作、可隨技術演進持續升級的完整體系。這六大層級從微觀的熱阻控制到宏觀的冷源供應,形成一條完整的熱傳遞路徑:晶片移除熱、伺服器整合熱、機櫃分配熱、列層協同熱、Plenum 優化氣流並最終由機房層排散熱。未來 AI 晶片功耗仍將提升,散熱技術也正向著更近源、更高效、更智能化的方向演進,而 HTM架構將持續作為支撐資料中心可靠運行的核心基礎。

責任編輯:吳碧娥

【本文僅反映專家作者意見,不代表本報及其任職單位之立場】

備註:

[1] https://prod-edam.honeywell.com/content/dam/honeywell-edam/pmt/oneam/en-us/electronic-materials/thermal-interface-materials/documents/hon-ess-adm-the-role-of-tims-in-modern-electronics.pdf?utm_source=chatgpt.com

智權報397期文章列表

李淑蓮 從代工巨人到智權楷模:林忠億分享鴻海智財權策略轉型與技術共享願景
四分衛林 太平洋彼岸的專利風暴:一位半導體老兵眼中的美國專利訴訟生存戰 -1
吳碧娥 台美對等關稅出爐!台商赴美投資的稅務策略
李淑蓮 超越摩爾定律的「積木革命」:異質整合與小晶片如何重塑全球 AI 算力版圖?
吳碧娥 三大巨頭的策略大風吹,AI催生XR產業新型態
芮嘉瑋 AI 運算熱浪下的散熱革命:從晶片到機房的AI資料中心熱管理系統工程
楊智傑 AI檢索增強生成摘要是否侵害新聞文章著作權?紐約南區法院2025年11月Cohere案裁定
王思原 以案例介紹英國近期營業秘密侵害事件:2025年倫敦高等法院Illiquid v. Altana案
黃鐙輝 台灣工具機產業將振興再起?談2026年工具機產業的轉型關鍵
葉雪美 以實例談CAFC銷售禁制令核發判決駁回 - 4:四項系爭專利與Chitado產品D~E的比對分析和地院重審判決結果提供
陳秉訓 比較美國與台灣在《商標法》上考量「商業情境」維權使用的判斷方式
邱英武 中國外觀設計合案申請規範(下)
黃蘭閔 EPO案件進度查詢辦法調整

發表留言

請輸入您的評論!
請在此輸入您的姓名