2年前、CloudflareはAMD EPYC Milan x86プロセッサーをベースとした最先端の第11世代サーバー群を展開するにあたり、演算用サーバーのハードウェアの大幅なアップグレードを行いました。x86インフラの再更新時期が近づいており、これは2024年の展開を計画しています。この更新では、プロセッサーそのものだけでなく、サーバーのコンポーネントの多くをアップグレードする必要があります。Workers AIの推論を推進するGPUに対応し、メモリ、ストレージ、セキュリティの最新の進歩を活用できるようにする必要があります。サーバーの筐体形状自体も含め、サーバーのあらゆる面が厳しく評価されます。
常に考慮しなければならない重要な要素のひとつは温度です。最新世代のx86プロセッサは性能の大幅な向上を実現している一方、その代償として消費電力と発熱量が増加しています。この投稿では、この傾向と、それにより私たちが次世代サーバー群に新たな物理サイズを採用するに至った理由について説明します。
迫り来る更新に向けて、私たちはx86CPUの状況について徹底的な調査を行いました。AMDは最近、革新的な性能を持つZen 4アーキテクチャを採用した最新製品Genoa、Bergamo、Genoa-Xを発表しました。同時にIntelは、コードネーム「Eagle Stream」と呼ばれる第4世代Intel Xeonスケーラブル・プロセッサ・プラットフォームの一部としてSapphire Rapidsを発表し、独自の進化をアピールしています。これらの選択肢は、お客様のニーズに合わせてCloudflareのサーバーテクノロジーの将来をどのように形成するかを検討する上で、重要な選択肢となります。
新しいIntelやAMDのチップセットを含め、x86 CPUベンダーは世代を追うごとに急増するCPUの熱設計ポイント(TDP)という継続的な課題に直面しています。TDPは、負荷がかかった状態で設計上で想定される冷却システムによるCPUの最大放熱量と定義され、CPUソケットの最大消費電力もTDPで表されます。次のプロットは、2014年以降の各ハードウェア・サーバー世代ごとのCPUのTDPの傾向を示したものです:
Cloudflareでは、第9世代サーバーはTDPが150WのIntel Skylake 6162をベースにしており、第10世代サーバーはTDPが240WのAMD Rome 7642を、第11世代サーバーはTDPが240WのAMD Milan 7713をベースにしています。現在、AMD EPYC 9004シリーズSKUスタックのデフォルトのTDPは360Wまで上昇し、最大400Wまで設定可能です。Intel Sapphire Rapid SKUスタックのデフォルトのTDPは350Wまで上昇しています。このようなTDPの上昇傾向は、次世代x86 CPUでも続くと予想されます。
多世代冷却ソリューションの設計
従来、Cloudflareの第10世代サーバーと第11世代サーバーは、ラックを隙間なく使用できるよう空冷式の1Uの筐体形状で設計されていました。1Uの筐体形状とは、1ラックユニット分(1.75インチ)の高さの筐体形状のサーバーを短く表現したものです。しかし、筐体形状1UのTDPが350ワット以上のCPUを空冷するには、ファンを100%の周期(常に最大速度で稼動)で回転させる必要があります。ファン1基をフル回転させると約40Wを消費し、1サーバーあたり7~8基のデュアルローターファンを使用する一般的なサーバー構成では、ファンへの電力供給だけで280~320Wに達します。ピーク負荷時には、冷却ファン、プロセッサ、その他のコンポーネントを含めたシステム全体の消費電力は、サーバーあたり750Wを超えることもあります。
筐体形状1Uは、最大8基の40mmデュアルローターファンの搭載が可能ですが、対応可能な温度範囲には上限があります。まず、室温を40℃(通常時に予想される最高温度)と考慮します。私たちは、この条件下で8基のファンすべてを100%の周期で稼働させた空冷サーバーは、最大TDPが400WのCPUに対応できるという測定結果を得ました。
次世代AMD CPUは現行世代とソケットは互換性がありますが、最大TDPが500Wまで上昇し、他のベンダーも次の世代で同様の傾向に従うと予想されるため、これは課題となります。将来を見据えて、すべてのx86 CPU製品で第12世代の設計を可能な限り次世代にも再利用を可能とするためには、スケーラブルな熱ソリューションが必要となります。さらに、Cloudflareがサーバーを配備している多くのコロケーション施設では、ラックの消費電力に制限があります。システムの総消費電力はノードあたり750ワットを超えており、ネットワーク機器が使用するスペースを考慮すると、ラックスペースは50%も活用されていないことになります。
問題を抱えています!
各CPU世代にはさまざまなSKUオプションがあり、消費電力が主な足枷となっている場合、TDPを制限しコア数を減らした低消費電力のSKUを使用することも可能です。これを評価するため、ハードウェアチームはラボで複数のCPU SKUを用いて総合的な負荷に関するベンチマークを実行しました。その結果、Cloudflareサービスは最大128コアまたは256ハードウェアスレッドまで効率的にコア数を拡張でき、TDPが360Wを超えても大幅なパフォーマンス向上と総所有コスト(TCO)のメリットが得られることがわかりました。
しかし、パフォーマンス指標とTCO指標は、サーバー単位では優れているように見えますが、これはこの話の一部にすぎません。サーバーはデプロイされるとサーバーラックに配置されますが、サーバーラックには設計上考慮しなければならない制約や制限事項が存在します。ラックの電力バジェットとラックの高さという2つの制限となる要素があります。これら2つのラックレベルの制約を考慮した場合、総所有コスト(TCO)に対するメリットはTDPによってどのように変化するでしょうか?私たちは、最もコア数の多いCPUの設定可能なTDP範囲全体で性能調査を行った結果、CPUのTDPがおよそ340W以上になると、ラックレベルのTCOのメリットが停滞することが分かりました。
TCOのメリットが停滞する理由は、ラックの電力バジェットの限界に達するためです。CPUのTDPが340Wを超えると、サーバー1台あたりの性能向上に伴う消費電力が増加し、結果としてラックの電力バジェット内に収めるためにラック内に設置できるサーバーの台数が制限されるため、そのメリットが相殺されます。CPUのTDPの消費電力を340Wに抑えても、まだラックの利用率は低く、30%の空きがあり、ラックを十分に活用できていません。
幸いなことに、シャーシの高さを筐体形状2U(高さ1.75~3.5インチ)に増加することで、電力上限を設け、性能向上の可能性を妥協するという選択肢があります。これにより、以下のメリットを得ることができます:
より大量の送風が可能な大型ファン(最大80mm)
より効果的な放熱を可能にするより高さのある大型の放熱器
大半のコンポーネントの高さが1Uであるため、シャーシ内の空気抵抗が少ない
デュアルスロット用の筐体形状オプションなど、PCIe接続型のアクセラレータやGPUを増設するための十分なスペース
廃止された1U設計
新しい2U設計
画像をクリックして拡大
2Uシャーシ設計は目新しいものではなく、様々な理由から業界では実際に非常に一般的に採用されています。その理由の1つは、より多くの放熱を実現する優れた通気性にありますが、より多くのスペースを占有するため、ラックに設置できるサーバーの数が制限されるというトレードオフを伴います。しかし、私たちの直面する問題はスペースの制約ではなく消費電力の制約であるため、このトレードオフは私たちの設計に悪影響を与えるものではありません。
Cloudflareベンダーから提供された熱シミュレーションによると、60mmファン4基または80mmファン4基で、ファン1基あたり40ワット未満でシステムを冷却するのに十分であることが示されています。これは、1U設計の40mmファン8基と比較して、理論上最低150ワットの節約となり、大幅な運用費(OPEX)の節約とTCOの改善につながります。また、筐体形状を2Uに変更することで、ラックの電源バジェットとラックスペースを最大限に活用できるようになり、デュアルスロット用の筐体形状オプションを含め、PCIe接続型のアクセラレータやGPUを増設するための十分なスペースが得られます。
まとめ
直感に反すると思われるかもしれませんが、私たちの観察によると、サーバーシャーシを大きくし、ノード単位の使用スペースを増加することで、実際にラックスペースを最大限活用できる上、より優れた熱設計が可能となり、旧世代の導入以上に全体的なTCOメリットが向上します。私たちは、この技術的準備調査の結果に非常に満足しており、第12世代演算用サーバーの検証を積極的に進め、近く本番稼動できることを目指しています。第12世代の設計の詳細については、続報をお待ちください。
より良いインターネットの構築に貢献したいとお考えの方、当社は現在求人中です!