Suscríbete para recibir notificaciones de nuevas publicaciones:

Servidor de Cloudflare de 12ª generación: más grande, mejor y más frío con un factor de forma 2U1N

2023-12-01

5 min de lectura
Esta publicación también está disponible en English, 繁體中文, Français, Deutsch, 日本語, 한국어 y 简体中文.

Hace dos años, Cloudflare llevó a cabo una mejora importante del hardware de nuestro servidor de proceso con la implementación de nuestro conjunto de innovadores servidores de 11ª generación, basados en los procesadores AMD EPYC Milan x86. Llega el momento de actualizar de nuevo nuestra infraestructura x86, con la implementación planificada para 2024. Esto implica actualizar no solo el propio procesador, sino también muchos de los componentes del servidor. Debe poder adaptarse a las GPU que impulsan la inferencia en Workers AI, y aprovechar los últimos avances en memoria, almacenamiento y seguridad. Cada uno de los aspectos del servidor se evalúa estrictamente, incluido el propio factor de forma del servidor.

Una variable fundamental que siempre se tiene en cuenta es la temperatura. Las últimas generaciones de procesadores x86 han supuesto importantes avances de rendimiento, con la desventaja del aumento del uso de potencia y de la salida de calor. En esta publicación analizaremos esta tendencia, y cómo ha contribuido a nuestra decisión de adoptar una nueva presencia física en nuestro grupo de servidores de nueva generación.

Como preparación para la próxima renovación, hemos realizado un estudio exhaustivo del entorno de las CPU x86. AMD presentó hace poco sus últimas soluciones: Genoa, Bergamo y Genoa-X, que ofrecen la potencia de su innovadora arquitectura Zen 4. Al mismo tiempo, Intel reveló Sapphire Rapids como parte de su plataforma de procesadores escalables Intel Xeon de cuarta generación, denominada "Eagle Stream", que muestra sus propios avances. Estas opciones ofrecen posibilidades muy interesantes a la hora de considerar cómo definir el futuro de la tecnología de servidor de Cloudflare a fin de satisfacer las necesidades de nuestros clientes.

Una dificultad que nos encontramos constantemente relacionada con los proveedores de CPU x86, incluidos los nuevos conjuntos de chips de Intel y AMD, es el rápido incremento del punto de diseño térmico (TDP) de las CPU de una generación a otra. El TDP se define como el calor máximo disipado por la CPU con carga que un sistema de refrigeración debería estar diseñado para refrigerar; el TDP también describe el consumo máximo de potencia del socket de CPU. Este gráfico muestra la tendencia del TDP de CPU de cada generación de servidores de hardware desde 2014:

En Cloudflare, nuestro servidor de 9ª generación estaba basado en Intel Skylake 6162 con un TDP de 150 W, nuestro servidor de 10ª generación estaba basado en AMD Rome 7642 a 240 W, y nuestro servidor de 11 generación estaba basado en AMD Milan 7713 a 240 W. Hoy, el TDP por defecto de la pila de SKU de AMD EPYC 9004 Series alcanza los 360 W y se puede configurar hasta 400 W. El TDP por defecto de la pila de SKU de Intel Sapphire Rapid es de hasta 350 W. La tendencia del incremento del TDP se espera que continúe con la nueva generación de soluciones de CPU x86.

Diseñar soluciones de refrigeración multigeneracionales

Tradicionalmente, los servidores de la 10ª y la 11ª generación de Cloudflare estaban diseñados en un factor de forma 1U, con refrigeración por aire a fin de maximizar la densidad del bastidor. El factor de forma 1U es la abreviatura de un factor de forma de servidor con una altura de 1 unidad de bastidor, con una altura o grosor de 1,75 pulgadas (4,45 cm). Sin embargo, para refrigerar por aire una CPU con un TDP superior a los 350 vatios en un factor de forma 1U es necesario que los ventiladores giren al 100 % del ciclo de servicio (es decir, que estén siempre en funcionamiento, a la velocidad máxima). Un solo ventilador en funcionamiento a velocidad máxima consume aproximadamente 40 W, y una configuración de servidor típica de 7–8 ventiladores de rotor dual por servidor puede llegar a consumir entre 280 y 320 W únicamente para el funcionamiento de los ventiladores. Con la carga máxima, la potencia total consumida del sistema, incluidos los ventiladores de refrigeración, el procesador y otros componentes, puede superar los 750 vatios por servidor.

El factor de forma 1U puede dar cabida a un máximo de ocho ventiladores de rotor dual de 40 mm, lo que establece un límite máximo en el rango de temperaturas que puede admitir. En primer lugar, consideramos la temperatura ambiente, que suponemos que es de 40 °C (la temperatura máxima esperada en condiciones normales). En estas condiciones, hemos determinado que los servidores refrigerados por aire, con los ocho ventiladores funcionando al 100 % del ciclo de servicio, pueden admitir unas CPU con un TDP máximo de 400 W.

Esto plantea un desafío, porque la nueva generación de CPU AMD, aunque son compatibles en cuanto a los sockets con la generación actual, aumentan el TDP a 500 W y esperamos que otros proveedores sigan una tendencia similar en las siguientes generaciones. Para estar preparados para el futuro, y reutilizar lo máximo posible el diseño de la 12ª generación para las generaciones futuras en todos los productos de CPU x86, necesitaremos una solución térmica escalable. Además, muchas instalaciones en ubicación compartida donde Cloudflare implementa sus servidores tienen un límite de potencia de los bastidores. Con un consumo total de potencia del sistema por encima de los 750 vatios por nodo, y tras tener en cuenta el espacio utilizado por los dispositivos de red, habríamos estado infrautilizando el espacio de bastidor en hasta el 50 %.

¡Tenemos un problema!

Sin embargo, aunque la métrica de rendimiento y la métrica de TCO no parecen presentar problemas a nivel de servidor, eso no es todo: al implementar los servidores, se colocan en uno de los bastidores de servidor, y estos presentan restricciones y limitaciones que es necesario tener en cuenta en el diseño. Los dos factores restrictivos son el presupuesto de potencia del bastidor y la altura del bastidor. Teniendo en cuenta estas dos restricciones a nivel de bastidor, ¿cómo beneficia el coste total de propiedad (TCO) combinado a la escala con TDP? Ejecutamos un análisis global del rendimiento en el rango de los TDP configurables de las CPU con mayor número de núcleos y observamos que la ventaja de TCO a nivel de bastidor se estanca cuando el TDP de CPU supera aproximadamente los 340 W.

La ventaja de TCO se estanca porque hemos alcanzado el límite de nuestro presupuesto de potencia de bastidor. La ventaja de rendimiento incremental por servidor, que coincide con un aumento incremental del TDP de CPU por encima de 340 W, queda anulada debido a la reducción del número de servidores que se pueden instalar en un bastidor sin salirse del presupuesto de potencia del bastidor. Incluso con la potencia del TDP de CPU limitada a 340 W, seguimos infrautilizando el bastidor, con el 30 % del espacio aún disponible.

Por suerte, hay una alternativa a la limitación de la potencia y a poner en riesgo una posible ventaja de rendimiento: aumentar la altura del chasis a un factor de formar 2U (aumentado la altura de 1,75 pulgadas a 3,5 pulgadas). Estas son algunas de las ventajas:

  • Ventiladores más grandes (de hasta 80 mm) que pueden desplazar más aire

  • Un disipador térmico más alto y más grande que puede disipar más eficazmente el calor

  • Menos impedancia del aire en el chasis, puesto que la mayoría de los componentes tienen una altura de 1U

  • Espacio suficiente para añadir aceleradores/GPU conectados mediante PCIe, incluidas opciones de factor de forma de ranura dual

Diseño de 1U eliminado

Nuevo diseño de 2U

Click images to enlarge

El diseño del chasis de 2U no es ninguna novedad. De hecho, es muy habitual en el sector por diversas razones, entre ellas, un mejor flujo de aire para disipar más calor. Sin embargo, tiene la desventaja de ocupar más espacio y de limitar el número de servidores que se pueden instalar en un bastidor. Puesto que nuestras restricciones son de potencia, no de espacio, la desventaja no tuvo ninguna repercusión negativa en nuestro diseño.

Las simulaciones térmicas que nos han proporcionado nuestros proveedores han mostrado que 4 ventiladores de 60 mm o 4 ventiladores de 80 mm a menos de 40 vatios por ventilador es suficiente para refrigerar el sistema. Eso representa un ahorro teórico de al menos 150 vatios en comparación con 8 ventiladores de 40 mm en un diseño de 1U, lo que generaría un ahorro considerable de los gastos operativos e impulsaría la mejora del TCO. Otra ventaja de la adopción de un factor de forma 2U es que nos permite aprovechar al máximo nuestro presupuesto de potencia de bastidor y nuestro espacio de bastidor. Asimismo, proporciona un amplio margen para la adición de aceleradores/GPU conectados mediante PCIe, incluidas opciones de factor de forma de ranura dual.

Conclusión

Podría parecer contrario al sentido común, pero nuestras observaciones indican que un mayor tamaño del chasis del servidor y la utilización de más espacio por nodo aumentan de hecho la densidad del bastidor y mejoran la ventaja de TCO global respecto a las implementaciones de generaciones anteriores, puesto que esto mejora el diseño térmico. Estamos muy contentos con el resultado de esta investigación de preparación técnica, y estamos trabajando activamente para validar nuestros servidores de proceso de 12ª generación y para lanzarlos pronto a producción. Ofreceremos más información sobre nuestros diseños de la 12ª generación. ¡No te pierdas los detalles!

Si te interesa contribuir a mejorar Internet, ¡ven y trabaja con nosotros!

Protegemos redes corporativas completas, ayudamos a los clientes a desarrollar aplicaciones web de forma eficiente, aceleramos cualquier sitio o aplicación web, prevenimos contra los ataques DDoS, mantenemos a raya a los hackers, y podemos ayudarte en tu recorrido hacia la seguridad Zero Trust.

Visita 1.1.1.1 desde cualquier dispositivo para empezar a usar nuestra aplicación gratuita y beneficiarte de una navegación más rápida y segura.

Para saber más sobre nuestra misión para ayudar a mejorar Internet, empieza aquí. Si estás buscando un nuevo rumbo profesional, consulta nuestras ofertas de empleo.
AMD (ES)HardwareCloudflare Network

Síguenos en X

Cloudflare|@cloudflare

Publicaciones relacionadas

07 de octubre de 2024, 13:00

Thermal design supporting Gen 12 hardware: cool, efficient and reliable

Great thermal solutions play a crucial role in hardware reliability and performance. Gen 12 servers have implemented an exhaustive thermal analysis to ensure optimal operations within a wide variety of temperature conditions and use cases. By implementing new design and control features for improved power efficiency on the compute nodes we also enabled the support of powerful accelerators to serve our customers....

25 de septiembre de 2024, 13:00

Cloudflare’s 12th Generation servers — 145% more performant and 63% more efficient

Cloudflare is thrilled to announce the general deployment of our next generation of server — Gen 12 powered by AMD Genoa-X processors. This new generation of server focuses on delivering exceptional performance across all Cloudflare services, enhanced support for AI/ML workloads, significant strides in power efficiency, and improved security features....