兩年前,當我們部署基於 AMD EPYC Milan x86 處理器的尖端第 11 代伺服器群時,Cloudflare 對我們的運算伺服器硬體進行了重大升級。我們的 x86 基礎架構即將再次更新,計畫於 2024 年進行部署。這不僅涉及升級處理器本身,還涉及許多伺服器元件。它必須能夠容納驅動 Workers AI 推理的 GPU,並利用記憶體、儲存和安全方面的最新進展。伺服器的每個方面都經過嚴格評估——包括伺服器外形尺寸本身。
溫度始終是需要考慮的一個關鍵變數。最新一代的 x86 處理器在效能方面取得了重大飛躍,但同時也帶來了更高的功耗和熱量輸出。在本篇文章中,我們將探討這一趨勢,以及我們如何根據這一趨勢決定為下一代伺服器機群採用新的實體足跡。
為了準備即將到來的更新,我們對 x86 CPU 格局進行了廣泛的調查。AMD 最近推出了最新產品:Genoa、Bergamo 和 Genoa-X,具有創新 Zen 4 架構的強大功能。與此同時,Intel 推出了 Sapphire Rapids,作為其第四代 Intel Xeon 可擴展處理器平台的一部分,代號為「Eagle Stream」,展示了自己的進步。當我們考慮如何塑造 Cloudflare 伺服器技術的未來以滿足客戶的需求時,這些選項提供了寶貴的選擇。
面對多家 x86 CPU 廠商(包括新的 Intel 和 AMD 晶片組),我們面臨的一個持續挑戰是 CPU 散熱設計功耗 (TDP) 逐代快速增加。TDP 的定義是,CPU 在負載下散發的最大熱量,設計的冷卻系統應當能夠驅散該熱量。TDP 還描述了 CPU 通訊端的最大功耗。下圖顯示了自 2014 年以來各代硬體伺服器的 CPU TDP 趨勢:
在 Cloudflare,我們的第 9 代伺服器基於 Intel Skylake 6162,TDP 為 150W;我們的第 10 代伺服器基於 AMD Rome 7642,TDP 為 240W;我們的第 11 代伺服器基於 AMD Milan 7713,TDP 為 240W。如今,AMD EPYC 9004 系列 SKU 堆疊預設 TDP 高達 360W,最高可設定 400W。Intel Sapphire Rapid SKU 堆疊預設 TDP 高達 350W。預計下一代 x86 CPU 產品將繼續保持這種 TDP 上升趨勢。
設計多代冷卻解決方案
傳統上,Cloudflare 第 10 代伺服器和第 11 代伺服器採用 1U 外形尺寸,並採用空氣冷卻來最大限度地提高機架密度。1U 外形尺寸是 1 機架單元高度伺服器外形尺寸的縮寫,即高度或厚度為 1.75 英寸。然而,要在 1U 外形尺寸中使用空氣冷卻超過 350 瓦 TDP 的 CPU,需要風扇以 100% 占空比旋轉(始終以最大速度執行)。全速執行的單個風扇功耗約為 40W,那麼,僅是為風扇供能,每台伺服器 7-8 個雙轉子風扇的典型伺服器設定就可達到 280-320W。在峰值負載時,每台伺服器的總系統功耗(包括冷卻風扇、處理器和其他元件)可能會超過 750 瓦。
1U 外形尺寸最多可容納八個 40mm 雙轉子風扇,這為其可支援的溫度範圍設定了上限。我們首先考慮環境室溫,我們假設為 40° C(正常條件下的最高預期溫度)。在這些條件下,我們確定所有八個風扇都以 100% 占空比執行的風冷伺服器可以支援最大 TDP 為 400W 的 CPU。
這就帶來了一個挑戰,因為下一代 AMD CPU 雖然與目前的 CPU 相容,但 TDP 卻高達 500W,我們預計其他廠商也會在隨後的幾代產品中遵循類似的趨勢。為了面向未來,並讓之後的所有 x86 CPU 產品盡可能重複使用第 12 代設計,我們需要一個可擴展的散熱解決方案。此外,Cloudflare 部署伺服器的許多主機託管設施都有機架功率限制。由於每個節點的系統總功耗超過 750 瓦,並且考慮到網路設備所利用的空間,我們將會有多達 50% 的機架空間未充分利用。
我們遇到了問題!
對於每一代 CPU,我們確實都有多種 SKU 選項。如果功耗是主要限制,我們可以選擇限制 TDP 並使用核心數較少、低功耗的 SKU。為了評估這一點,硬體團隊在實驗室中針對多個 CPU SKU 執行了綜合工作負載基準測試。我們發現,Cloudflare 服務可以繼續有效地擴展到 128 個核心或 256 個硬體執行緒,從而在 TDP 達到或超過 360W 時顯著提高效能和整體持有成本 (TCO) 效益。
然而,雖然每台伺服器的效能指標和 TCO 指標看起來不錯,但這只是情況的一部分:伺服器在部署時進入伺服器機架,而伺服器機架具有必須在設計時考慮的約束和限制。兩個限制因素是機架功率預算和機架高度。考慮到這兩個機架級限制,綜合整體持有成本 (TCO) 效益如何隨 TDP 變化?我們對最高核心數 CPU 的可設定 TDP 範圍進行了效能掃描,發現當 CPU TDP 升至約 340W 以上時,機架級 TCO 效益會停滯不前。
TCO 優勢停滯不前,是因為我們達到了機架功率預算限制:當 CPU TDP 增量增加到 340W 以上時,為了保持在機架的功率預算之內,機架中可安裝的伺服器數量會減少,每台伺服器的增量效能增益會因此而被抵消。 即使 CPU TDP 功率上限為 340W,我們仍未充分利用機架,仍有 30% 的空間可用。
值得慶倖的是,除了功率封頂和犧牲可能的效能增益之外,還有一種替代方法,即將機箱高度增加至 2U 外形尺寸(從 1.75 英寸高度增加到 3.5 英寸高度)。 這樣做的好處包括:
更大的風扇(最大 80mm),可輸送更多空氣
允許使用更高、更大的散熱片,以便更有效地散熱
機箱內的空氣阻抗更小(因為大多數元件的高度都是 1U)
提供足夠的空間來新增 PCIe 連接的加速器/GPU,包括雙插槽外形選項
已停用的 1U 設計
全新 2U 設計
點擊影像以放大
2U 機箱設計並不是什麼新鮮事物,實際上出於各種原因,2U 機箱設計在業界非常普遍,其中一個原因是更好的氣流可以散出更多的熱量,但它的代價是佔用更多的空間,限制了機架上可安裝的伺服器數量。由於我們受到功率限制而不是空間限制,因此這種權衡不會對我們的設計產生負面影響。
Cloudflare 廠商提供的熱模擬顯示,4 個 60mm 風扇或 4 個 80mm 風扇(每個風扇功率低於 40 瓦)足以冷卻系統。與 1U 設計中的 8 個 40mm 風扇相比,理論上可節省至少 150 瓦,這將顯著節省營運支出 (OPEX),提高整體持有成本 (TCO)。改用 2U 外形尺寸還能充分利用我們的機架功率預算和機架空間,並為增加 PCIe 連接的加速器/GPU(包括雙插槽外形選項)提供充足的空間。
結論
這似乎與直覺相反,但我們的觀察表明,擴大伺服器機箱和利用每個節點的更多空間,實際上增加了機架密度,並比上一代部署提高了整體 TCO 效益,因為這樣可以實現更好的散熱設計。 我們對此次技術就緒性調查的結果非常滿意,目前正在積極驗證我們的第 12 代運算伺服器,並很快將其投入生產。 請繼續關注我們第 12 代設計的更多詳細資料。
如果您有意願幫助建立更好的網際網路,請加入我們,我們正在招聘!