Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

Serveur de douzième génération de Cloudflare : plus grand, plus performant et plus frais dans un format 2U1N

2023-12-01

Lecture: 5 min.
Cet article est également disponible en English, en 繁體中文, en Deutsch, en 日本語, en 한국어, en Español et en 简体中文.

Il y a deux ans de cela, Cloudflare a entrepris une mise à niveau importante de ses équipements de serveur de calcul, avec le déploiement de sa remarquable flotte de serveurs de onzième génération, conçus autour des processeurs x86 AMD EPYC Milan. L'heure sera bientôt venue d'effectuer une nouvelle mise à niveau de notre infrastructure x86, dont le déploiement est prévu en 2024. Cette mise à niveau englobe non seulement le processeur lui-même, mais également de nombreux composants du serveur. Celui-ci doit être capable d'accueillir les GPU permettant l'exécution des tâches d'inférence sur Workers AI et de tirer parti des dernières avancées dans le domaine de la mémoire, du stockage et de la sécurité. Chaque aspect du serveur fait l'objet d'une évaluation rigoureuse, notamment le facteur de forme du serveur.

La température est une variable cruciale qui doit toujours être prise en considération. Les nouvelles générations de processeurs x86 ont permis d'accomplir des progrès considérables en termes de performances, toutefois, avec la contrepartie d'une consommation d'énergie et d'un dégagement de chaleur plus élevés. Dans cet article, nous allons explorer cette tendance et la manière dont elle a influencé notre décision d'opter pour un nouveau format physique pour notre flotte de serveurs de nouvelle génération.

En prévision de la future mise à jour, nous avons réalisé un examen approfondi du panorama des processeurs x86. AMD[1] [2]  a récemment présenté ses nouvelles offres (Genoa, Bergamo et Genoa-X), qui bénéficient de la puissance de l'innovante architecture Zen 4 du constructeur. Dans le même temps, Intel a dévoilé Sapphire Rapids dans le cadre de sa plateforme de processeurs évolutifs Intel Xeon de quatrième génération, portant le nom de code « Eagle Stream[3] [4] [5] », présentant ainsi également ses propres avancées. Ces options nous offrent des choix précieux, tandis que nous réfléchissons à la manière dont nous allons orienter les futures technologies de serveurs de Cloudflare afin de répondre aux besoins de nos clients.

Un défi récurrent auquel sont confrontés les fabricants de processeurs x86, notamment avec les nouveaux chipsets Intel et AMD, est l'augmentation rapide de l'enveloppe thermique (TDP, Thermal Design Power) des processeurs d'une génération à l'autre. L'enveloppe thermique est définie comme la chaleur maximale dissipée par le processeur sous charge, que l'architecture d'un système de refroidissement doit permettre de refroidir ; l'enveloppe thermique décrit également la consommation d'énergie maximale du socket de processeur. Ce graphique présente l'évolution de l'enveloppe thermique des processeurs pour chaque génération de serveurs physiques depuis 2014 :

Chez Cloudflare, les serveurs de neuvième génération étaient conçus autour du processeur Intel Skylake 6162, doté d'une enveloppe thermique de 150 W ; nos serveurs de dixième génération étaient conçus autour du processeur AMD Rome 7642, doté d'une enveloppe thermique de 240 W, et nos serveurs de onzième génération étaient conçus autour du processeur AMD Milan 7713, doté d'une enveloppe thermique de 240 W. Aujourd'hui, l'enveloppe thermique par défaut de la suite de références AMD EPYC 9004 Series atteint 360 W, et peut être configurée jusqu'à 400 W. Quant à l'enveloppe thermique de la suite de références Intel Sapphire Rapid, elle atteint 350 W. Cette tendance à l'augmentation des enveloppes thermiques devrait se poursuivre avec la prochaine génération de processeurs x86.

Concevoir des solutions de refroidissement multigénérationnelles

Les serveurs Cloudflare de dixième et onzième génération étaient conçus dans un facteur de forme 1U traditionnel, avec un refroidissement par air permettant de maximiser la densité du rack. Le facteur de forme 1U est l'abréviation de « 1 Rack Unit », soit 1,75 pouce de hauteur ou d'épaisseur. Cependant, le refroidissement par air d'un processeur doté d'une enveloppe thermique supérieure à 350 watts dans un format 1U exige que les ventilateurs fonctionnent à un taux d'utilisation de 100 % (à vitesse maximale, en permanence). Un ventilateur unique, fonctionnant à pleine vitesse, consomme environ 40 W ; une configuration de serveur typique comprenant 7–8 ventilateurs à double rotor peut consommer jusqu'à 280–320 W pour alimenter les ventilateurs seuls. En cas de pic de charge, la puissance totale consommée par le système (ventilateurs de refroidissement, processeur et autres composants inclus) peut dépasser 750 watts par serveur.

Le format 1U peut accueillir jusqu'à huit ventilateurs à double rotor de 40 mm, ce qui impose une limite supérieure à la plage de températures prise en charge. Nous prenons d'abord en compte la température ambiante de la pièce, que nous supposons être de 40 °C (c'est-à-dire la température maximale attendue dans des conditions normales). Dans ces conditions, nous avons déterminé que des serveurs refroidis par air équipés de huit ventilateurs fonctionnant à un taux d'utilisation de 100 % peuvent prendre en charge des processeurs dotés d'une enveloppe thermique maximale de 400 W.

Cela constitue un défi, car la future génération de processeurs, qui restera compatible avec les sockets de la génération actuelle, présentera des enveloppes thermiques pouvant atteindre 500 W, et nous nous attendons à ce que d'autres fournisseurs suivent une tendance similaire avec les générations de processeurs suivantes. Afin de pérenniser nos équipements et de réutiliser, autant que possible, l'architecture de la douzième génération pour les futures générations de serveurs avec l'ensemble des produits à base de processeurs x86, nous aurons besoin d'une solution thermique évolutive. Par ailleurs, de nombreuses installations de colocation dans lesquelles Cloudflare déploie ses serveurs imposent une limite de puissance par rack. Une consommation totale du système supérieure à 750 watts par nœud, après avoir pris en compte l'espace occupé par les équipements réseau, aurait entraîné une sous-utilisation atteignant 50 % de l'espace disponible dans le rack.

Nous avons un problème !

Nous disposons d'un choix de différentes références pour chaque génération de processeur, et si la puissance est la principale contrainte, nous pourrions choisir de limiter l'enveloppe thermique et d'utiliser une référence dotée d'un nombre de cœurs moins élevé et d'une consommation d'énergie inférieure. Pour évaluer cette possibilité, l'équipe responsable du matériel a effectué un test synthétique de charge de travail en laboratoire avec plusieurs références de processeurs. Nous avons constaté que les services Cloudflare évoluent continuellement de pair avec le nombre de cœurs jusqu'à 128 cœurs ou 256 threads matériels, entraînant un gain de performances significatif et un avantage en termes de coût total de possession à partir d'une enveloppe thermique[1] [2] de 360 W.

Cependant, si l'indicateur de performances et le coût total de possession par serveur semblent propices, ce n'est qu'une facette de l'histoire : lors de leur déploiement, les serveurs sont installés dans un rack, et les racks de serveurs imposent des contraintes et des limitations qui doivent être prises en compte lors de la conception. Les deux facteurs limitants sont le budget de puissance du rack et la hauteur du rack. Si l'on tient compte de ces deux contraintes, quelle est l'évolution du coût total de possession combiné en fonction de l'enveloppe thermique ? Nous avons effectué une analyse des performances sur la plage d'enveloppes thermiques configurable des processeurs présentant le plus grand nombre de cœurs, et nous avons remarqué que le bénéfice en termes de coût total de possession par rack stagne lorsque l'enveloppe thermique du processeur dépasse environ 340 W.

L'avantage en termes de coût total de possession stagne, car nous atteignons la limite du budget de puissance du rack ; le gain de performances supplémentaires par serveur, qui coïncide avec une augmentation incrémentale de l'enveloppe thermique du processeur au-delà de 340 W, est annulé par la réduction du nombre de serveurs pouvant être installés dans un rack, afin de respecter le budget de puissance de ce dernier. Même lorsque l'enveloppe thermique des processeurs est plafonnée à 340 W, le rack reste sous-utilisé, et 30 % de l'espace reste disponible.

Heureusement, l'augmentation de la hauteur du châssis à un facteur de forme 2U (de 1,75 pouce de hauteur à 3,5 pouces de hauteur) offre une alternative au plafonnement de la puissance et à la nécessité d'accepter un compromis affectant les gains de performances réalisables. Cette approche offre les avantages suivants :

  • Des ventilateurs plus grands (jusqu'à 80 mm), pouvant déplacer plus d'air

  • Permet l'utilisation d'un dissipateur thermique plus grand et plus haut, capable de dissiper plus efficacement la chaleur

  • Diminution de l'impédance de l'air à l'intérieur du châssis, puisque la majorité des composants ont une hauteur de 1U

  • Espace suffisant pour l'ajout d'accélérateurs PCIe/de GPU (y compris d'options avec un facteur de forme à deux fentes)

Architecture 1U obsolète

Nouvelle architecture 2U

Click images to enlarge

L'architecture de châssis 2U n'est pas nouvelle, et est en réalité très répandue dans l'industrie pour différentes raisons, parmi lesquelles sa capacité à offrir une meilleure circulation de l'air, permettant une meilleure dissipation thermique ; toutefois, elle a pour contrepartie d'occuper plus d'espace et, par conséquent, de limiter le nombre de serveurs pouvant être installés dans un rack. Puisque nous sommes soumis à des contraintes de puissance, et non d'espace, ce compromis n'a pas eu d'incidence négative sur notre architecture.

Les simulations thermiques présentées par les fournisseurs de Cloudflare ont démontré que 4 ventilateurs de 60 mm ou 4 ventilateurs de 80 mm consommant moins de 40 watts par ventilateur suffisent à refroidir le système. Par rapport à l'utilisation de 8 ventilateurs de 40 mm dans une architecture 1U, cela représente une économie théorique d'au moins 150 watts et se traduirait par des économies significatives en termes de dépenses d'exploitation, ainsi que par une amélioration du coût total de possession. L'évolution vers un facteur de forme 2U nous offre également l'avantage d'utiliser pleinement notre budget de puissance par rack et notre espace par rack, et offre largement assez d'espace pour ajouter des accélérateurs PCIe/des GPU (y compris des options avec un facteur de forme à deux fentes).

Conclusion

Bien que cela puisse paraître contre-intuitif, nos observations indiquent que l'agrandissement du châssis de serveur et l'utilisation de plus d'espace par nœud augmentent en réalité la densité par rack et améliorent le coût total de possession par rapport aux déploiements de la génération précédente, en permettant une meilleure architecture thermique. Nous sommes très satisfaits du résultat de cette étude de l'état de préparation technique, et nous travaillons activement à la validation de nos serveurs de calcul de douzième génération et à leur prochain lancement en production. Restez à l'écoute pour plus de détails sur nos modèles de douzième génération.

Si vous êtes enthousiaste à l'idée de contribuer à bâtir un Internet meilleur, rejoignez-nous ; nous recrutons !

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
AMD (FR)HardwareCloudflare Network

Suivre sur X

Cloudflare|@cloudflare

Publications associées

07 octobre 2024 à 13:00

Thermal design supporting Gen 12 hardware: cool, efficient and reliable

Great thermal solutions play a crucial role in hardware reliability and performance. Gen 12 servers have implemented an exhaustive thermal analysis to ensure optimal operations within a wide variety of temperature conditions and use cases. By implementing new design and control features for improved power efficiency on the compute nodes we also enabled the support of powerful accelerators to serve our customers....

25 septembre 2024 à 13:00

Cloudflare’s 12th Generation servers — 145% more performant and 63% more efficient

Cloudflare is thrilled to announce the general deployment of our next generation of server — Gen 12 powered by AMD Genoa-X processors. This new generation of server focuses on delivering exceptional performance across all Cloudflare services, enhanced support for AI/ML workloads, significant strides in power efficiency, and improved security features....