구독해서 새 게시물에 대한 알림을 받으세요.

Cloudflare 12세대 서버: 더 크고 더 좋고 더 쿨한 2U1N 폼 팩터

2023-12-01

5분 읽기
이 게시물은 English, 繁體中文, Français, Deutsch, 日本語, Español简体中文로도 이용할 수 있습니다.

2년 전, Cloudflare는 AMD EPYC Milan x86 프로세서 기반의 최첨단 11세대 서버를배포하면서 컴퓨팅 서버 하드웨어에 대한 대대적인 업그레이드를 단행했습니다. 이제 2024년에 예정된 배포를 통해 x86 인프라를 또 한 번 교체할 시기가 다가왔습니다. 여기에는 프로세서 자체뿐만 아니라 서버의 많은 구성 요소를 업그레이드하는 작업이 포함됩니다. Workers AI에서 추론을 구동하는 GPU를 수용하고 메모리, 스토리지, 보안 관련 최신 기술을 활용할 수 있을 것입니다. 서버 폼 팩터 자체를 포함하여 서버의 모든 측면을 엄격하게 평가, 고려하게 됩니다.

항상 고려해야 할 중요한 변수 중 하나는 온도입니다. 최신 세대의 x86 프로세서는 성능이 크게 향상되는 만큼 전력 소모량과 발열량 역시 상당합니다. 이 게시물에서는 이러한 추세와 이러한 추세가 차세대 서버를 위한 새로운 물리적 풋프린트를 채택하기로 한 결정에 어떤 영향을 미쳤는지 살펴봅니다.

다가오는 재편을 준비하기 위해 저희는 x86 CPU 환경에 대한 광범위한 설문조사를 실시했습니다. AMD는 최근 혁신적인 Zen 4 아키텍처의 성능을 갖춘 최신 제품들인 Genoa, Bergamo, Genoa-X를 출시했습니다. 이와동시에 Intel은 4세대 Intel Xeon 스케일러블 프로세서 플랫폼의 일부인 코드명 "Eagle Stream"의 Sapphire Rapid를 공개하며 각자의 발전된 기술을 선보였습니다. 이러한 옵션들은 고객의 요구에 맞춰 Cloudflare 서버 기술의 미래를 어떻게 형성할지 고민할 때 중요한 선택지를 제공합니다.

새로운 Intel 및 AMD 칩셋을 포함한 x86 CPU 공급업체가 직면하고 있는 지속적인 과제는 세대를 거듭할수록 빠르게 증가하는 CPU 열 설계 포인트(TDP)입니다. TDP는 냉각 시스템이 냉각시켜야 하는, 부하 상태에서 CPU가 발산하는 최대 열로 정의되며, TDP는 CPU 소켓의 최대 전력 소비량을 나타내기도 합니다. 다음 도표는 2014년 이후 각 하드웨어 서버 세대의 CPU TDP 추세를 보여줍니다.

Cloudflare의 9세대 서버는 Intel Skylake 6162 기반에 TDP 150W, 10세대 서버는 AMD Rome 7642 기반에 TDP 240W, 11세대 서버는 AMD Milan 7713 기반에 TDP 240W였습니다. 현재 AMD EPYC 9004 시리즈 SKU 스택의 기본 TDP는 최대 360W이며, 최대 400W까지 구성할 수 있습니다. Intel Sapphire Rapid SKU 스택의 기본 TDP는 350W까지 올라갑니다. 이러한 TDP 증가 추세는 차세대 x86 CPU 제품에서도 계속될 것으로 예상됩니다.

여러 세대에 걸친 냉각 솔루션 설계

전통적으로 Cloudflare 10세대 서버와 11세대 서버는 랙 밀도를 최대화하기 위해 공랭식 냉각을 사용하는 1U 폼 팩터로 설계되었습니다. 1U 폼 팩터는 높이 또는 두께가 1.75인치인 1랙 유닛 높이 서버 폼 팩터의 줄임말입니다. 그러나 1U 폼 팩터에서 350W TDP 이상의 CPU를 공랭식으로 냉각하려면 팬이 100% 듀티 사이클(항상 최대 속도로 작동)로 회전해야 합니다. 최대 속도로 작동하는 단일 팬은 약 40W를 소비하며, 서버당 7 8개의듀얼 로터 팬으로 구성된 일반적인 서버구성의 경우 팬에서만 280320W의 전력이 소모될 수 있습니다. 최대 부하가 발생하면 냉각 팬, 프로세서 및 기타 구성 요소를 포함하여 소비되는 총 시스템 전력은 서버당 750W를 초과할 수 있습니다.

1U 폼 팩터는 최대 8개의 40mm 듀얼 로터 팬을 장착할 수 있으며, 지원 가능한 온도 범위의 상한선도 이에 맞춰 정해집니다. 먼저 주변 실내 온도를 고려하는데, 40°C(정상 조건에서 예상되는 최대 온도)로 가정합니다. 이러한 조건에서 8개의 팬이 모두 100% 듀티 사이클에서 작동하는 공랭식 서버는 최대 TDP가 400W인 CPU를 지원할 수 있다고 판단했습니다.

차세대 AMD CPU는 현재 세대 제품과 소켓이 호환되지만, TDP가 최대 500W까지 상승하고 다른 벤더도 다음 세대에서는 비슷한 추세를 따를 것으로 예상되므로 이는 해결해야 할 과제입니다. 모든 x86 CPU 제품에서 12세대 설계를 미래 세대에서 최대한 많이 재사용하고 미래를 대비하려면 확장 가능한 써멀 솔루션이 필요합니다. 또한 Cloudflare가 서버를 배포하는 많은 코로케이션 시설에는 랙 전력 제한이 있습니다. 노드당 총 시스템 전력 소비량이 750W를 넘고 네트워킹 장비가 사용하는 공간을 고려하면 랙 공간을 50%까지 활용하지 못하고 있었을 것입니다.

그건 문제입니다!

각 CPU 세대에서 사용할 수 있는 다양한 SKU 옵션이 있으며, 전력이 주요 제약 조건인 경우에는 TDP를 제한하고 코어 수가 적은 저전력 SKU를 사용하면 됩니다. 이를 파악하기 위해 하드웨어 팀은 실험실에서 여러 CPU SKU에 대한 가상 워크로드 벤치마크를 돌렸습니다. 그 결과, Cloudflare 서비스는 최대 128개 코어 또는 256개 하드웨어 스레드까지 효과적으로 코어를 확장할 수 있어 360W TDP 이상에서 상당한 성능 향상과 총소유비용(TCO) 이점을 얻을 수 있음을 확인했습니다.

그러나 성능 지표와 TCO 지표는 서버별로 보면 좋아 보이지만 이는 일부 수치에 불과합니다. 서버가 배포되면 서버 랙에 들어가게 되고, 서버 랙에는 설계 시 고려해야 하는 제약과 한계가 있기 때문입니다. 두 가지 제한 요소는 랙 전력 예산과 랙 높이입니다. 이 두 가지 랙 관련 제약을 고려할 때 총소유비용(TCO)과 TDP를 합친 이점은 어떻게 확장될까요? 코어 수가 가장 많은 CPU의 구성 가능한 TDP 범위에 걸쳐 성능 스윕을 실행한 결과, CPU TDP가 약 340W 이상으로 상승하면 랙 수준의 TCO 이점이 정체되는 것을 확인했습니다.

랙의 전력 예산 한도에 도달하면 서버당 성능 향상과 CPU TDP가 340W 이상으로 증가함에 따라 랙에 설치할 수 있는 서버 수가 감소하여 랙의 전력 예산 범위 내에서 유지되기 때문에 TCO 이점이 정체되는 것입니다. CPU TDP 전력이 340W로 제한되어 있어도 랙의 30%가 여전히 사용 가능한 공간으로 남아있어 랙을 제대로 활용하지 못하고 있습니다.

다행히도 섀시 높이를 2U 폼 팩터로 높이면(높이 1.75인치에서 3.5인치로) 전력 제한을 없애고 성능 향상 가능성을 타협할 수 있는 대안이 있습니다. 이렇게 하면 다음과 같은 이점이 있습니다.

  • 더 큰 팬(최대 80mm)으로 더 많은 공기 순환

  • 더 크고 큰 방열판으로 열을 더 효과적으로 방출

  • 대부분의 구성 요소가 1U 높이이므로 섀시 내 공기 임피던스 감소

  • 듀얼 슬롯 폼 팩터 옵션을 포함하여 PCIe 부착형 가속기/GPU를 추가할 수 있는 충분한 공간 확보

더 이상 사용되지 않는 1U 디자인

새로운 2U 디자인

확대하려면 이미지를 클릭하세요

2U 섀시 설계는 새로운 것이 아니며 실제로 업계에서 여러 가지 이유로 매우 일반화되어 있습니다. 그 이유 중 하나는 더 나은 공기 흐름으로 더 많은 열을 방출할 수 있다는 것이지만 랙에 설치할 수 있는 서버 수보다 더 많은 공간을 차지하고 그만큼 서버 수가 제한된다는 단점 역시 존재합니다. 저희는 공간 제약이 아닌 전력 제약 형태이기 때문에 이 타협 요소가 설계에 부정적인 영향을 미치지 않습니다.

Cloudflare 공급업체가 제공한 열 시뮬레이션에 따르면 60mm 팬 4개 또는 80mm 팬 4개(팬당 40W 미만)면 시스템을 냉각하는 데 충분한 것으로 나타났습니다. 이는 1U 설계에서 8개의 40mm 팬을 사용할 때와 비교했을 때 이론적으로 최소 150W를 절약하는 것으로, 상당한 운영 비용(OPEX) 절감과 총소유비용(TCO) 개선 효과를 가져옵니다. 또한 2U 폼 팩터로 전환하면 랙 전력 예산과 랙 공간을 최대한 활용할 수 있고, 듀얼 슬롯 폼 팩터 옵션을 포함하여 PCIe 부착형 가속기/GPU를 추가할 만한 충분한 공간을 확보할 수 있다는 이점도 있습니다.

결론

직관적이지 않은 것처럼 보일 수 있지만, 관찰 결과 서버 섀시를 늘리고 노드당 더 많은 공간을 활용하면 실제로 랙 밀도가 증가하고 열 설계가 개선되므로 이전 세대 배포에 비해 전반적인 TCO 이점이 개선되는 것으로 나타났습니다. 이번 기술 준비도 조사 결과에 매우 만족하며, 12세대 컴퓨트 서버를 검증하고 곧 프로덕션에 출시하기 위해 적극적으로 노력하고 있습니다. 12세대 디자인에 대한 자세한 내용은 계속 전해 드리겠습니다.

더 나은 인터넷 세상을 만드는 데 열정을 품고 계신 인재를 모집 중입니다!

Cloudflare에서는 전체 기업 네트워크를 보호하고, 고객이 인터넷 규모의 애플리케이션을 효과적으로 구축하도록 지원하며, 웹 사이트와 인터넷 애플리케이션을 가속화하고, DDoS 공격을 막으며, 해커를 막고, Zero Trust로 향하는 고객의 여정을 지원합니다.

어떤 장치로든 1.1.1.1에 방문해 인터넷을 더 빠르고 안전하게 만들어 주는 Cloudflare의 무료 앱을 사용해 보세요.

더 나은 인터넷을 만들기 위한 Cloudflare의 사명을 자세히 알아보려면 여기에서 시작하세요. 새로운 커리어 경로를 찾고 있다면 채용 공고를 확인해 보세요.
AMD (KO)HardwareCloudflare Network

X에서 팔로우하기

Cloudflare|@cloudflare

관련 게시물

2024년 10월 15일 오후 3:00

Analysis of the EPYC 145% performance gain in Cloudflare Gen 12 servers

Cloudflare’s Gen 12 server is the most powerful and power efficient server that we have deployed to date. Through sensitivity analysis, we found that Cloudflare workloads continue to scale with higher core count and higher CPU frequency, as well as achieving a significant boost in performance with larger L3 cache per core....

2024년 10월 07일 오후 1:00

Thermal design supporting Gen 12 hardware: cool, efficient and reliable

Great thermal solutions play a crucial role in hardware reliability and performance. Gen 12 servers have implemented an exhaustive thermal analysis to ensure optimal operations within a wide variety of temperature conditions and use cases. By implementing new design and control features for improved power efficiency on the compute nodes we also enabled the support of powerful accelerators to serve our customers....

2024년 9월 25일 오후 1:00

Cloudflare’s 12th Generation servers — 145% more performant and 63% more efficient

Cloudflare is thrilled to announce the general deployment of our next generation of server — Gen 12 powered by AMD Genoa-X processors. This new generation of server focuses on delivering exceptional performance across all Cloudflare services, enhanced support for AI/ML workloads, significant strides in power efficiency, and improved security features....