訂閱以接收新文章的通知:

我們如何使 Cloudflare 的基礎結構更加可持續

2022-12-14

閱讀時間:9 分鐘
本貼文還提供以下語言版本:English简体中文

無論您是要構建全球網路或購買雜貨,一些永續發展生活的規則仍然相同:審慎考慮您取得的物品、充分利用您擁有的,以及嘗試將廢棄物升級改造,而不是加以丟棄。這些規則是 Cloudflare 的核心︰我們嚴正看待打造更好的網際網路這件事,而且我們對此的定義不只是擁有最安全、最可靠且效能最佳的網路,還有最具永續發展的網路。

How we’re making Cloudflare’s infrastructure more sustainable

隨著網際網路令人難以置信的發展,以及 Cloudflare 網路用量的增長,現在即使對硬體的永續發展性進行線性改進,也會在未來產生指數級增長。我們想利用這篇文章來概述我們如何看待網路中硬體的永續發展性影響,以及我們正在做些什麼來持續緩解該影響。

伺服器領域的永續發展

一部伺服器在美國使用時,碳足跡總數約為 6 噸二氧化碳當量 (CO2eq)。任何運算裝置的碳足跡都有四個部分:

  1. 隱含排放:原料和生產

  2. 包裝和運送

  3. 產品的使用

  4. 生命週期結束。

因為伺服器的實際運作和使用所產生的排放,佔整個生命週期影響的絕大部分。第二大影響是隱含排放(亦即最初裝置生產過程產生的碳足跡),約為整體排放量的 10%

產品使用的排放

降低伺服器運作的整體排放量困難重重。如果有需要運算能力的工作負載,伺服器將完成工作負載,並使用所需的能源來加以完成。然而,我們能做的是持續尋求改善每公斤二氧化碳排放量的運算輸出量,而實現此目標的方法是不斷地將我們的硬體升級成最具能源效率的設計。我們從某一代伺服器轉換到新一代伺服器時,經常會看到運算輸出量在相同的功耗等級上有相當大幅的增長。在這方面,考量到能源對我們業務而言成本高昂,鼓勵減少對環境衝擊的措施自然與我們的的業務模型一致。

隱含排放

另一個大類別的排放是隱含排放;我們對此領域的控制實際上遠超過對產品使用方面的控制。記得先前提到的:隱含碳排放是指裝置運作以外所產生的排放來源。如何才能減少與一系列伺服器運作相關的隱含排放呢?事實證明,有幾種方法可以實現:模組化設計、仰賴開放標準而非專有標準,以實現重複使用和回收等目標。

模組化設計

第一個重大機會是透過模組化系統設計。模組化系統是減少隱含碳排放的絕佳方式,因為它們會導致新元件減少,而且可讓沒有效率升級的零件使用時間更長。模組化伺服器本質上是將主機板的功能分解到子板上,讓伺服器擁有者能夠選擇性地升級其使用案例所需的元件。

模組化設計的影響有多大?如果 30% 的伺服器提供有意義的效率提升(通常是 CPU 和記憶體,有時候是 I/O),我們可能真的需要加以升級才能符合效率目標,但是在隱含碳排放(即伺服器的其他部分,通常包含無法提高效率的原件)中進行額外的 70% 花費並不合邏輯。模組化設計可讓我們升級會提升資料中心運作效率的元件,但將可以繼續運作之「膠合邏輯」元件中的碳排放分攤到更長時間內。

以前,許多系統提供者在週邊設備推動過荒謬且無用的變更(自訂 I/O、特定使用案例可能不需要的輸出,例如因遠端操作而可能不會使用的急救推車 VGA 等),使得每個新的 CPU 插槽設計都必須進行新的主機板設計。將各個廠商之間的這些介面標準化之後,我們現在可以僅提供我們需要的元件,並自行重複使用更大比例的系統。此趨勢也有助於提高可靠性(子板會經過更完善的測試)和供應保證(因為標準化的子元件板可從更多的廠商取得);而有鑑於過去幾年的全球供應難題,這些是我們業界所有人的首要考量。

採用以標準為基礎的硬體,以鼓勵重複使用

但是,即使採用模組化,元件在淘汰之後也必須有所去處,而過去都是前往掩埋場。二手伺服器的需求是有市場的,但許多是具備專屬韌體和 BIOS 之封閉系統的一部分,因此重新調整其用途的成本相當昂貴,或是無法將其整合至新的系統中。循環經濟的情況如此,因此對於封閉韌體和 BIOS 支援,以及專屬互連或非標準化互連,服務費用都可能會使得重複使用的成本過高。如何解決此問題?如果伺服器可透過開放原始碼韌體和 BIOS 支援,就能大幅降低重複使用零件的成本,因此另一位提供者可以支援新的客戶。

回收

但是,除此之外,還是有零件故障,或者即使在二手市場中運作也不再有經濟效益等情形。雖然為了提取可用元素而做出的能源投資有時候沒有意義,但金屬回收一直都是可以實現的,部分製造商也開始投資在這方面的計畫。這個領域出現了創新,Zhan 等人 (2020) 開發出對環境有好且高效率的水熱緩衝技術,用來回收以 GaA 為主的 IC,使得鎵和砷的回收率分別達到 99.9 和 95.5%。目前的採用仍然有限,大部分的製造商正在討論水循環利用和可再生能源,而不是全面回收金屬。但是,我們會密切關注這方面,以便運用任何出現的進一步創新。

Cloudflare 正在採取哪些措施來減少伺服器對環境的影響

討論這些概念是很好的做法,但我們現在就在著手進行這項工作。我會以兩個主要的方面來形容這些概念:採取步驟,透過模組化和開放標準設計來減少隱含碳排放,以及使用最具能源效率的解決方案來處理我們的工作負載。

Gen 12:言行一致

我們的新一代伺服器 Gen 12 即將推出。我們強調的是以模組化為驅動的設計,以及聚焦於開放標準,以實現伺服器內部元件的重複使用。

以模組化驅動的設計

從往常來看,Cloudflare 每一代伺服器都需要進行大幅的重新設計。升級至新的 CPU 需要更換新的主機板、電源、機箱、記憶體 DIMM 和 BMC。這可能也意味著新的風扇、儲存裝置、網路卡,甚至是連接線。但是,這些元件中有許多並不會因為世代更迭而有大幅變動:這些元件是使用較舊的製造程序來製作,而且運用的互連通訊協定不需要最新的速度。

為協助說明這一點,我們來看看目前 Gen 11 伺服器:單一插槽伺服器,功率約為 450 瓦,CPU 和關聯的記憶體佔其中約 320 瓦(尖峰負載時可能會達到 360 瓦)。該系統上的所有其他元件(上方提及)的運作功率約為 100 瓦(大部分是風扇,這也是有如此多家公司正在探索替代冷卻設計的原因),因此它們並非最佳化工作或更新的 IC 能夠大幅改善系統效率之處。所以,我們不是針對所有新的伺服器重新打造所有這些新零件,並產生更多的隱含碳排放,而是盡可能加以重複使用。

將因效率而需要變更的元件與其他系統等級功能(儲存裝置、風扇、BMC、可編程邏輯裝置等)分開後,我們就能最大限度地在各個世代之間重複使用電子元件。時間拉長之後,以模組化方式構建此類系統就能減少隱含碳足跡了。想想看:如果您能夠升級汽車的引擎以提高效率,但不需要變更其他運作良好的零件,像是車身、座位和窗戶等,將能夠減少多少浪費。這就是為什麼我們在世界各地的資料中心都採用模組化設計。

同時也推動了開放標準

身為產業的一員,如果我們想要實現真正的模組化和減少 70% 電子廢棄物的目標,就必須同心協力加快介面、標準和廠商之間的互通性。我們已經開始運用標準的附加卡片規格(OCP 2.03.0 NIC、用於網路安全和管理模組的資料中心安全控制模組等),而且我們的新一代伺服器設計將運用資料中心模組化硬體系統;這是一種開放原始碼設計規格,可讓模組化子元件在共用的匯流排之間連接(無論系統製造商為何)。此技術讓我們能夠在多個世代之間維護這些元件,而不必在變更頻率不如 CPU 和記憶體的零件上產生更多碳債。

為了實現更全面的循環經濟,Cloudflare 已廣泛運用開放原始碼解決方案並增加其使用,例如 OpenBMC。這是對所有廠商的一種要求,而且我們努力確保修正功能能夠向上追溯到社群。開放系統韌體能夠透過可稽核性來實現更強大的安全性,但是對於永續發展而言,最重要的因素是:新的一方能夠承擔對該伺服器的責任與支援,而這可讓原本要銷毀的系統得以重複使用。這樣可確保 Cloudflare 所用硬體的 99%(除了含有資料的資產以外,因為這些會基於安全政策而加以銷毀)重新調整用途,藉此減少為滿足全球容量需求而構建的新伺服器數量。如需更多有關實現方式的詳細資訊,以及如何加入我們減少電子廢棄物的願景,請參閱此部落格文章

針對我們的工作負載採用最具能源效率的解決方案

在因應需求呈指數級增長的同時(但不會揮霍地投入更多伺服器來解決問題),我們能夠推動永續發展(硬體方面)的另一個重要方式,這雖然在概念上相當簡單,但要實現卻有難度:測試和部署更具能源效率的架構,並針對工作負載加以調整。這表示,不只要評估我們新一代伺服器和網路設備的效率,還要減少設備中的硬體和能源浪費。

目前在生產方面,我們看到對於相同的能源量,Gen 11 伺服器處理的要求比 Gen 10 伺服器多了 25%。這與我們在 2021 年中測試時的預期大致相同。而鑑於我們持續推出當時無法測試的新產品與服務,此結果讓我們充滿期待。

對我們而言,系統能源效率這個概念已不再像過去那樣簡單了。從以往來看,評估效率的關鍵指標一直是每秒每瓦的要求數量。這個指標可在評估新一代伺服器時進行多代的效能比較,但實際上是根據我們的歷史核心產品套件所設計。

我們希望──且基於規模擴充所需──我們的全球網路成為越來越具智慧的威脅偵測機制,同時為我們的客戶提供高效能的開發平台。任何在選購新電腦時注意基準測試的人都知道,在某個領域(如 SpecInt_Rate、STREAM 等傳統基準測試)的效能快速,並不代表在其他領域(如 AI 推斷、影片處理、大量物件儲存)的效能也很快捷。我們新一代伺服器的驗證測試程序必須將所有這些工作負載及其相對普遍性列入考量,而不是僅考慮要求。Cloudflare 在硬體與軟體間的深度合作,為其他執行第三方程式碼的公司提供了無法追尋的最佳化機會。我經常說,這是我們的超能力之一,而且這一點是讓我每天對自己的工作感到最為期待的機會。

另一種具有續發展且有效率的方式是運用網域特定的加速器。加速器是一種廣泛的領域,而且我們已經看到應用程式層級的加速器(請參閱我們最近有關 Cloudflare Stream AV1 硬體加速的公告)和基礎架構加速器(有時稱為智慧型 NIC)等方面的驚人商機。話雖如此,如果將新的裝置加入裝置群不如它取代的裝置有效,就只會加重問題,而且節點層級的效能分析經常會忽略在我們這類分散式裝置群的部署複雜性,因此我們採取的行動快速,但是會審慎進行。

展望未來:業界標準報告

我們會盡最大努力推動發展,但是有些領域需要業界整體一起加快腳步。

尤其是:伺服器元件製造和操作的排放報告相關標準嚴重缺乏,因此我們正在與標準機構(例如 Open Compute Project)合作,協助為整個業界定義永續發展指標。這篇文章以廣泛的方式說明了我們如何提升效率並減少碳足跡,但是應該要有一個明確的方法,以便我們用來確保您瞭解所支持的企業類型為何。

《溫室氣體盤查議定書》倡議在發展國際公認的企業溫室氣體盤查和報告標準並促進廣泛採用方面的表現相當優異。他們將範疇 1 的排放定義為「報告公司營運的直接碳盤查」(這個計算方式較為容易),並將範疇 3 的排放量化為「間接價值鏈排放」。為了取得產生設備之整個生命週期間的標準化指標,我們需要瞭解子元件製造程序、供應鏈、運輸,甚至是建造資料中心時使用的建築方法等方面的碳足跡。

為了打造業界標準的合理指標,必須確保對所有廠商都以一致的方式測量隱含碳足跡。

協助打造更好、更環保的網際網路

雲端的碳排放對於地球有重大影響──根據某些說法,到了 2030 年,ICT 足跡將佔全球能源需求的 21%。我們竭盡所能使 Cloudflare 在地球上的碳足跡減至最小。如果您已經進行到這個階段,而且有興趣在網際網路上構建最全球化、最有效率且最永續發展的網路方面做出貢獻,硬體系統工程團隊正在廣納人才中。歡迎加入我們。

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
Impact WeekHardwareSustainability

在 X 上進行關注

Rebecca Weekly|@rebeccalipon
Jon Rolfe|@jrolfoid
Cloudflare|@cloudflare

相關貼文

2024年10月15日 下午3:00

Analysis of the EPYC 145% performance gain in Cloudflare Gen 12 servers

Cloudflare’s Gen 12 server is the most powerful and power efficient server that we have deployed to date. Through sensitivity analysis, we found that Cloudflare workloads continue to scale with higher core count and higher CPU frequency, as well as achieving a significant boost in performance with larger L3 cache per core....

2024年10月07日 下午1:00

Thermal design supporting Gen 12 hardware: cool, efficient and reliable

Great thermal solutions play a crucial role in hardware reliability and performance. Gen 12 servers have implemented an exhaustive thermal analysis to ensure optimal operations within a wide variety of temperature conditions and use cases. By implementing new design and control features for improved power efficiency on the compute nodes we also enabled the support of powerful accelerators to serve our customers....

2024年9月25日 下午1:00

Cloudflare’s 12th Generation servers — 145% more performant and 63% more efficient

Cloudflare is thrilled to announce the general deployment of our next generation of server — Gen 12 powered by AMD Genoa-X processors. This new generation of server focuses on delivering exceptional performance across all Cloudflare services, enhanced support for AI/ML workloads, significant strides in power efficiency, and improved security features....