Jetzt abonnieren, um Benachrichtigungen über neue Beiträge zu erhalten:

Gen 12-Server von Cloudflare: größer, besser, kühler in einem 2HE1N-Formfaktor

01.12.2023

Lesezeit: 6 Min.

Mit Einführung einer hochmodernen Serverflotte der 11. Generation, die auf AMD EPYC Milan x86-Prozessoren basiert, hat Cloudflare vor zwei Jahren bei der Compute-Server-Hardware erheblich aufgerüstet. Nun ist es bald an der Zeit für eine weitere Auffrischung unserer x86-Infrastruktur, was für 2024 geplant ist. Vorgesehen ist nicht nur ein Upgrade des Prozessors selbst, sondern auch vieler anderer Serverkomponenten. Dabei muss eine Unterbringung der Grafikprozessoren, auf die sich die Inferenz von Workers AI stützt, sowie die Nutzung der neuesten Fortschritte im Bereich Arbeitsspeicher, Speicherplatz und Sicherheit ermöglicht werden. Jeder Aspekt des Servers wird gründlich unter die Lupe genommen – auch dessen Formfaktor selbst.

Eine entscheidende, immer zu berücksichtigende Variable ist die Temperatur. Die neuesten Generationen von x86-Prozessoren haben bei der Performance beträchtliche Sprünge gemacht. Der Preis dafür ist allerdings ein höherer Stromverbrauch und eine stärkere Wärmeentwicklung. In diesem Blogbeitrag gehen wir auf diesen Trend näher ein und erläutern, wie er unsere Entscheidung beeinflusst hat, einen neuen physischen Footprint für unsere Serverflotte der nächsten Generation zu wählen.

In Vorbereitung auf das bevorstehende Upgrade haben wir uns einen umfassenden Überblick über die aktuelle x86-CPU-Landschaft verschafft. Bei AMD hat man kürzlich die neuesten Produkte vorgestellt: Genoa, Bergamo und Genoa-X, die sich die Stärke der innovativen Zen-4-Architektur zunutze machen. Gleichzeitig hat die Firma Intel Sapphire Rapids als Teil ihrer Intel Xeon Scalable Processor Platform der vierten Generation mit dem Codenamen „Eagle Stream“ präsentiert und damit ihre eigenen Fortschritte demonstriert. Diese Optionen bieten uns wertvolle Wahlmöglichkeiten bei unseren Überlegungen dazu, wie wir die Zukunft der Servertechnologie von Cloudflare gestalten können, um den Bedürfnissen unserer Kunden gerecht zu werden.

Eine ständige Herausforderung, mit der wir bei allen x86-CPU-Anbietern konfrontiert sind und die auch bei den neuen Chipsätzen von Intel und AMD besteht, ist die von Generation zu Generation schnell ansteigende  Thermal Design Power (TDP) des CPU. Dabei handelt es sich um den maximalen Wärmeverlust des Prozessors unter Last, für die ein Kühlsystem ausgelegt sein sollte. Die TDP beschreibt auch den maximalen Stromverbrauch des Prozessorsockels. Die folgende Grafik zeigt den CPU-TDP-Trend jeder Hardware-Servergeneration seit 2014:

Bei Cloudflare basierte unser Gen 9-Server auf Intel Skylake 6162 mit einer TDP von 150 W, unser Gen 10-Server auf AMD Rome 7642 mit 240 W und unser Gen 11-Server auf AMD Milan 7713 mit 240 W. Die Standard-TDP des AMD EPYC 9004 Series SKU-Stack reicht heute bis zu 360 W und ist auf bis zu 400 W konfigurierbar. Die Standard-TDP des Intel Sapphire Rapid SKU-Stack liegt bei bis zu 350 W. Der Anstieg der TDP dürfte sich bei der nächsten Generation von x86-Prozessoren fortsetzen.

Entwicklung von generationsübergreifenden Kühllösungen

Traditionell wurden Gen 10- und Gen 11-Server von Cloudflare in einem 1HE-Formfaktor mit Luftkühlung entwickelt, um die Rackdichte zu maximieren. 1HE-Formfaktor ist die Abkürzung für den Server-Formfaktor mit einer Höhe von einer Rack-Einheit (1,75 Zoll). Um jedoch einen Prozessor mit mehr als 350 Watt TDP in einem 1HE-Formfaktor mit Luft zu kühlen, müssen die Lüfter bei einem Tastgrad von 100 % (d. h. die ganze Zeit mit maximaler Drehzahl) laufen. Ein einzelner, mit voller Geschwindigkeit laufender Lüfter verbraucht etwa 40 W und bei einer gängigen Serverkonfiguration mit sieben bis acht Doppelrotorlüftern pro Server kann allein für die Stromversorgung der Lüfter ein Bedarf von 280–320 W anfallen. Bei Spitzenlasten übersteigt der gesamte Stromverbrauch des Systems, einschließlich der Lüfter, des Prozessors und anderer Komponenten, unter Umständen 750 Watt pro Server.

In den 1HE-Formfaktor passen maximal acht 40-mm-Doppelrotorlüfter, was eine Obergrenze für den Temperaturbereich setzt, den er unterstützen kann. Wir berücksichtigen zunächst die Raumtemperatur, von der wir annehmen, dass sie 40° C (die unter normalen Bedingungen zu erwartende Höchsttemperatur) beträgt. Unter diesen Bedingungen haben wir festgestellt, dass luftgekühlte Server, bei denen alle acht Lüfter bei einem Tastgrad von 100 % laufen, CPU mit einer maximalen TDP von 400 W unterstützen können.

Das stellt eine Herausforderung dar, weil die nächste Generation von AMD-Prozessoren zwar sockelkompatibel mit der aktuellen ist, jedoch eine TDP von bis zu 500 W erreicht. Dieser Trend dürfte auch vor den nächsten Generationen von Produkten anderer Anbieter nicht Halt machen. Um zukunftssicher zu sein und so viel wie möglich vom Design der 12. Generation aller x86-Prozessoren für künftige Generationen wiederverwenden zu können, ist eine skalierbare thermische Lösung gefragt. Außerdem existiert an vielen Colocation-Standorten, an denen sich Cloudflare-Server befinden, eine Strombegrenzung für Racks. Bei einem Gesamtstromverbrauch des Systems von über 750 Watt pro Knoten und unter Berücksichtigung des von der Netzwerkausrüstung beanspruchten Platzes würden wir die Rackfläche um bis zu 50 % unterauslasten.

Das ist ein Problem.

Uns stehen für jede CPU-Generation eine Reihe von SKU-Optionen zur Verfügung und wenn der Stromverbrauch die wichtigste Einschränkung ist, könnten wir die TDP begrenzen und eine SKU mit geringerer Kernzahl und niedrigem Stromverbrauch verwenden. Um dies zu bewerten, hat das Hardware-Team im Labor einen synthetischen Workload-Benchmark mit mehreren CPU-SKU ausgeführt. Wir haben festgestellt, dass die Cloudflare-Dienste weiterhin effektiv mit bis zu 128 Kernen oder 256 Hardware-Threads skalieren, was zu einem erheblichen Leistungsgewinn und zu Vorteilen bei den Gesamtbetriebskosten führt, bei und über einer TDP von 360 W.

Die Bilanz in puncto Performance und Gesamtbetriebskosten fällt auf den einzelnen Server gesehen also positiv aus. Doch das greift zu kurz: Server werden in ein Rack eingebaut, wenn sie zum Einsatz kommen sollen, und Server-Racks unterliegen Ein- und Beschränkungen, die beim Design berücksichtigt werden müssen. Die beiden begrenzenden Faktoren sind das Energiebudget und die Höhe des Racks. Wie skaliert der kombinierte Gesamtbetriebskostenvorteil mit der TDP, wenn man diese beiden Einschränkungen auf Rack-Ebene berücksichtigt? Wir haben einen Performance-Sweep über den konfigurierbaren TDP-Bereich der CPU mit der höchsten Kernanzahl durchgeführt und festgestellt, dass der Gesamtbetriebskostenvorteil auf Rack-Ebene stagniert, wenn die CPU-TDP über etwa 340 W steigt.

Zu der Stagnation kommt es, weil wir an die Grenze unseres Rack-Strombudgets stoßen. Mit einer schrittweisen Erhöhung der CPU-TDP über 340 W geht ein stufenweiser Performancezuwachs pro Server einher. Doch dieser Vorteil wird durch die Verringerung der Anzahl der Server, die in einem Rack installiert werden können, um das Strombudget des Racks einzuhalten, wieder zunichte gemacht. Selbst wenn der CPU-TDP-Stromverbrauch auf 340 W begrenzt ist, wird das Rack immer noch nicht voll ausgelastet, da 30 % des verfügbaren Platzes noch frei sind.

Glücklicherweise gibt es eine Alternative zur Strombegrenzung und zu Kompromissen bei der möglichen Performancesteigerung: Man kann die Gehäusehöhe auf einen 2HE-Formfaktor erhöhen (von 1,75 Zoll auf 3,5 Zoll Höhe). Diese Vorgehensweise bietet unter anderem folgende Vorteile:

  • Größere Lüfter (mit bis zu 80 mm), die mehr Luft bewegen können
  • Ein größerer und höherer Kühlkörper, der die Wärme effektiver ableiten kann
  • Geringerer Luftwiderstand innerhalb des Gehäuses, da die meisten Komponenten eine Höhe von 1HE haben
  • Ausreichend Platz für zusätzliche PCIe-Beschleuniger/Grafikprozessoren, einschließlich Dual-Slot-Formfaktor-Optionen
Veraltetes 1HE-DesignNeues 2HE-Design
click to enlarge click to enlarge

Click images to enlarge

Das 2-HE-Gehäusedesign ist nichts Neues und in der Branche aus verschiedenen Gründen sehr verbreitet. Einer davon ist die bessere Luftzirkulation, dank der mehr Wärme abgeführt werden kann. Es hat aber den Nachteil, dass es mehr Platz benötigt und dadurch die Anzahl der Server, die in einem Rack installiert werden können, begrenzt wird. Da wir jedoch nur in Bezug auf den Stromverbrauch und nicht hinsichtlich des Platzes Einschränkungen unterliegen, hat sich dieser Kompromiss nicht negativ auf unser Design ausgewirkt.

Thermische Simulationen von Cloudflare-Anbietern haben gezeigt, dass 4 x 60-mm-Lüfter oder 4 x 80-mm-Lüfter mit weniger als 40 Watt pro Lüfter zur Kühlung des Systems ausreichen. Das bedeutet eine theoretische Einsparung von mindestens 150 Watt im Vergleich zu 8 x 40-mm-Lüftern in einem 1HE-Design, was zu erheblichen Einsparungen bei den Betriebskosten und zu einer Optimierung der Gesamtbetriebskosten führen würde. Die Umstellung auf einen 2HE-Formfaktor hat außerdem den Vorteil, dass wir unser Strombudget und unseren Platz im Rack voll ausschöpfen können und über ausreichend Raum für zusätzliche PCIe-Beschleuniger/GPU verfügen, einschließlich Dual-Slot-Formfaktor-Optionen.

Fazit

Es mag kontraintuitiv erscheinen, aber unsere Beobachtungen deuten darauf hin, dass die Vergrößerung des Servergehäuses und die Nutzung von mehr Platz pro Knoten tatsächlich die Rack-Dichte erhöht und die Gesamtbetriebskostenvorteile im Vergleich zu Implementierungen früherer Generation steigert, weil dadurch ein besseres thermisches Design ermöglicht wird. Wir sind mit dem Ergebnis dieser Untersuchung des technischen Reifegrads sehr zufrieden und arbeiten aktiv daran, unsere Gen 12 Compute-Server zu überprüfen und sie bald in das Produktivsystem einzuführen. Schauen Sie doch einfach ab und zu auf unserem Blog vorbei, wenn Sie Näheres zu unseren Gen 12-Designs erfahren möchten.

Falls Sie Lust haben, zu einer Verbesserung des Internets beizutragen, dann kommen Sie zu uns, wir stellen ein!

Wir schützen komplette Firmennetzwerke, helfen Kunden dabei, Internetanwendungen effizient zu erstellen, jede Website oder Internetanwendung zu beschleunigen, DDoS-Angriffe abzuwehren, Hacker in Schach zu halten, und unterstützen Sie bei Ihrer Umstellung auf Zero Trust.

Greifen Sie von einem beliebigen Gerät auf 1.1.1.1 zu und nutzen Sie unsere kostenlose App, die Ihr Internet schneller und sicherer macht.

Wenn Sie mehr über unsere Mission, das Internet besser zu machen, erfahren möchten, beginnen Sie hier. Sie möchten sich beruflich neu orientieren? Dann werfen Sie doch einen Blick auf unsere offenen Stellen.
AMD (DE)Hardware (DE)Cloudflare Network (DE)Deutsch

Folgen auf X

Cloudflare|@cloudflare