리전에서 가장 좋은 장소: 추론을 위한 지구

The best place on Region: Earth for inference

오늘날 Cloudflare의 Workers 플랫폼에서는 백만 명이 넘는 개발자가 이전에는 불가능했던 정교한 전체 스택 앱을 구축하게 되었습니다.

물론 Workers가 처음부터 그렇게 시작한 것은 아닙니다. 오늘 같은 날, 창립기념일 주간의 발표로 시작되었습니다. 지금과 같은 화려한 기능은 없었지만 출시 당시 Workers를 사용해 보신 분들은 "이건 다르고, 변화를 주도하게 될 것"이라는 느낌을 받으셨을 것입니다. 아무것도 없는 상태에서 완전히 확장할 수 있는 글로벌 앱으로 전환하는 데 몇 시간, 며칠, 몇 주, 심지어 몇 달이 걸리는 것이 아니라 단 몇 초만에 가능했기 때문입니다. 이는 앱 구축 방식의 새로운 시작이었습니다.

지난 몇 달 동안 생성형 AI를 사용해 보셨다면 비슷한 느낌이 드셨을 겁니다. 여러 친구와 동료들을 대상으로 설문조사를 실시한 결과, 그들이 깨달은 순간은 조금씩 다르다는 것을 알 수 있었습니다. 하지만 업계의 전반적인 분위기에 대해서는 이건 다르고, 변화를 주도할 것"이라고 만장일치로 동의했습니다.

오늘 Workers와 마찬가지로 컴퓨팅의 미래에 비슷한 영향을 미칠 것으로 예상되는 발표를 연이어 하게 되어 기쁩니다. 더 이상 부차적인 사항은 생략하고, 중요한 내용을 말씀드리겠습니다.

Cloudflare의 전역 네트워크에서 NVIDIA GPU로 실행되는 Workers AI(과거 Constellation)는 서버리스 모델을 AI에 도입하여 사용한 만큼만 비용을 지불하고 인프라에 소요되는 시간을 줄이며 앱에 더 많은 시간을 할애할 수 있도록 지원합니다.
벡터 데이터베이스인 Vectorize는 실행 중인 모델과 사용자화된 데이터에 모두 액세스해야 하는 사용 사례를 지원하기 위해 쉽고 빠르고 비용 효율적으로 벡터를 인덱싱하고 저장할 수 있습니다.
AI Gateway는 그 실행 장소와 상관없이 AI 배포를 캐싱, 레이트 리미팅, 관찰할 도구를 제공합니다.

하지만 이것으로 끝이 아닙니다.

팀 스포츠는 위대한 일을 달성하기 위한 영역이며, 우리는 이를 혼자서 하고 싶지 않습니다. 우리가 하는 많은 일과 마찬가지로, 우리는 거인들의 어깨 위에 서 있습니다. NVIDIA, Microsoft, Hugging Face, Meta 등과 파트너십을 맺게 되어 매우 기쁘게 생각합니다.

오늘 발표는 6년 전 Workers가 그랬던 것처럼, AI 분야로 나아가는 Cloudflare의 여정의 시작을 알리는 것입니다. 오늘 발표하는 내용을 자세히 살펴보시고(실망하지 않으실 겁니다!), 한 걸음 물러나서 AI에 대한 광범위한 비전과 이번 발표가 그 비전에 어떻게 부합하는지 설명할 기회를 갖고 싶었습니다.

추론: AI 워크로드의 미래

AI에는 학습과 추론이라는 두 가지 주요 프로세스가 있습니다.

생성형 AI 모델 학습은 장기간(때로는 몇 달에 걸친) 컴퓨팅 집약적인 프로세스를 거쳐 모델을 생성합니다. 따라서 학습 워크로드는 기존의 중앙 집중식 클라우드 위치에서 실행하기에 가장 적합합니다. 하지만 기업들이 장기적인 GPU 액세스를 확보하는 데 어려움을 겪고 있고 멀티 클라우드로 전환하는 추세에 따라 R2는 모든 컴퓨팅 클라우드에서 액세스하는 학습 데이터에 대한 송신료를 없애는 필수 서비스를 제공하는 방안을 논의했습니다. 하지만 이는 오늘 논의의 핵심이 아닙니다.

학습에는 상당한 리소스가 필요하지만, 훨씬 더 보편적인 AI 관련 컴퓨팅 작업은 추론입니다. 최근에 ChatGPT에 질문을 하거나, 이미지를 생성하거나, 텍스트를 번역한 적이 있다면 추론 작업을 수행한 것입니다. 추론은 한 번만이 아니라 호출할 때마다 필요하기 때문에 AI 워크로드의 대부분을 차지할 것으로 예상됩니다.

학습이 중앙 집중식 클라우드에 가장 적합하다면 추론에 가장 적합한 곳은 어디일까요?

네트워크 - 추론을 위한 "완벽한" 네트워크

추론의 가장 큰 특징은 일반적으로 사용자가 추론의 반대편에서 대기하고 있다는 것입니다. 즉, 추론은 대기 시간에 민감한 작업입니다.

대기 시간에 민감한 작업을 수행하기에 가장 좋은 장소는 장치라고 생각하실 수도 있습니다. 경우에 따라서는 이것이 사실일 수도 있지만 몇 가지 문제가 있습니다. 첫째, 장치의 하드웨어는 그다지 강력하지 않습니다. 배터리 수명이 그렇습니다.

반면 중앙 집중식 클라우드 컴퓨팅도 있습니다. 디바이스와 달리 중앙 집중식 클라우드 위치에서 실행되는 하드웨어는 출력 없이는 아무것도 할 수 없습니다. 물론 문제는 사용자와 수백 밀리초 떨어진 곳에 위치한다는 점입니다. 때로는 국경을 넘나드는 경우도 있기 때문에 그 자체로도 어려움이 있습니다.

따라서 디바이스는 아직 충분히 강력하지 않고 중앙 집중식 클라우드는 너무 멀리 떨어져 있습니다. 따라서 네트워크는 추론의 황금 표준이 됩니다. 너무 멀리 떨어져 있지도 않고 충분한 컴퓨팅 성능을 갖추고 있습니다.

Region 지구에서 실행되는 최초의 추론 클라우드

개발자 플랫폼을 구축하면서 얻은 한 가지 교훈은 대규모 네트워크로 앱을 실행하면 성능과 규모를 최적화하는 데 도움이 되지만(물론 이는 좋은 이점입니다!), 더 중요한 것은 개발자가 빠르게 작업할 수 있도록 적절한 수준의 추상을 제공한다는 점입니다.

서버리스 추론을 위한 Workers AI

Workers AI 발표를 시작으로, 최초의 진정한 서버리스 GPU 클라우드인 Region 지구와 완벽한 조화를 이루게 되었습니다. 머신 러닝에 대한 전문 지식이 필요하지 않으며 GPU를 찾아 헤맬 필요도 없습니다. 제공되는 모델 중 하나를 선택하기만 하면 됩니다.

Workers AI를 설계할 때 가능한 한 모델을 원활하게 배포하기 위해 많은 고민을 했습니다.

2023년에 모델을 배포할 계획이라면 LLM이 옵션 중 하나가 될 확률이 높습니다.

벡터 저장을 위한... Vectorize!

엔드투엔드 방식으로 운영되는 AI 챗봇을 구축하려면 사용자를 위한 UI를 제공하고, 전달할 정보(예: 제품 카탈로그)를 구문 분석하고, 모델을 사용하여 임베딩으로 변환하고, 이를 어딘가에 저장할 수 있는 방법이 있어야 합니다. 우리는 앞의 두 가지 요구 사항에 필요한 제품을 제공했으나, 마지막에 언급된 임베딩을 저장하는 데는 벡터 데이터베이스라는 고유한 솔루션이 필요합니다.

Workers를 발표하고 얼마 지나지 않아 Workers KV를 발표했을 때와 마찬가지로, 상태에 대한 액세스 권한이 없으면 컴퓨팅으로 할 수 있는 일이 거의 없습니다. AI의 경우에도 마찬가지입니다. 의미 있는 AI 사용 사례를 구축하려면 상태에 대한 액세스 권한을 AI에 부여해야 합니다. 바로 이 점이벡터 데이터베이스가 필요한 이유이며, 오늘 자체 벡터 데이터베이스인 Vectorize를 발표하게 된 이유이기도 합니다.

캐싱, 레이트 리미팅 및 AI 배포에 대한 가시성을 제공하는 AI Gateway

Cloudflare에서 무언가를 개선하기 위한 첫 번째 단계는 항상 측정입니다. 하지만 측정할 수 없다면 어떻게 개선할 수 있을까요? AI 배포 비용으로 어려움을 겪고 있는 고객들의 이야기를 듣고, 우리는 이를 측정하고 개선할 수 있는 방법을 고민했습니다.

당사의 AI Gateway가 두 가지를 모두 도와드립니다!

실시간 관찰 기능을 활용하면 AI 배포를 사전에 관리할 수 있어 모니터링, 디버그, 미세 조정이 더욱 쉬워집니다. 이를 활용하여 성능을 최적화하고 비용을 효과적으로 관리하려면 AI 배포를 캐싱, 레이트 리미트, 모니터링하는 것이 필수적입니다. 자주 사용되는 AI 응답을 캐싱하면 대기 시간이 줄어들고 시스템 안정성이 향상되며, 레이트 리미팅은 효율적인 리소스 할당을 보장하여 급증하는 AI 비용 문제를 완화합니다.

Meta와 협력하여 전역 네트워크에 Llama 2 출시

최근까지 LLM을 이용할 수 있는 유일한 방법은 독점 모델에 의존하는 것이었습니다. LLM 학습에는 상당한 시간, 컴퓨팅 성능, 재정적 자원을 투자해야 하므로 대부분의 개발자가 접근하기 어려웠습니다. Meta가 오픈 소스 LLM인 Llama 2를 출시하면서 개발자가 직접 자신의 LLM을 실행하고 배포할 수 있게 되는 흥미로운 변화가 일어났습니다. 하지만 여전히 한 가지 작은 세부 사항이 남아 있는데, 바로 GPU에 액세스할 수 있어야 한다는 점입니다.

Workers AI 카탈로그의 일부로 우리는 Llama 2를 제공함으로써 모든 개발자가 별도의 구성 없이도 LLM에 액세스할 수 있기를 바랍니다.

물론 실행 모델은 AI 앱의 구성 요소 중 하나일 뿐입니다.

ONNX 런타임을 활용하여 개발자가 클라우드에서 에지, 장치 간 원활하게 이동할 수 있도록 지원

에지는 이러한 수많은 문제를 해결하기 위한 최적의 위치일 수 있지만, 장치, 에지, 중앙 집중식 클라우드의 스펙트럼을 따라 다양한 위치에서 앱이 계속 배포될 것으로 예상됩니다.

자율 주행 자동차를 예로 들어 보겠습니다. 밀리초 단위로 중요한 결정을 내려야 하는 상황에서는 장치에서 이러한 결정을 내려야 합니다. 반면에 수천억 개의 매개변수가 있는 모델을 실행해야 하는 경우에는 중앙 집중식 클라우드가 워크로드에 더 적합할 수 있습니다.

그렇다면 이러한 위치 사이를 어떻게 원활하게 탐색할 수 있을까요?

Constellation(현재 Workers AI)를 처음 출시했을 때부터 당사가 특히 관심을 가졌던 기술 중 하나는 바로 ONNX 런타임입니다. ONNX 런타임은 모델 실행을 위한 표준화된 환경을 생성하여 여러 위치에서 다양한 모델을 실행할 수 있도록 지원합니다.

앞서 언급한 바와 같이, 에지는 자체적으로 추론을 실행하기에 이상적인 환경입니다. 그러나 대기 시간 최소화, 정확도 극대화, 비용 최소화, 규정 준수, 개인정보 보호 등 원하는 사용 사례와 최적화 목표에 따라 세 위치 모두에서 워크로드를 원활하게 안내하는 라우팅 계층으로도 탁월한 성능을 발휘합니다.

Hugging Face와 제휴하여 최적화된 모델을 내 손으로 간편하게 제공하기

개발자가 탐색하는 곳에서 서버리스 추론으로 작업하는 것보다 개발 속도를 높이는 데 더 유용한 것은 없습니다. 그렇기 때문에 개발자가 직접 만나는 것보다 훨씬 더 효율적으로 개발자가 있는 곳에서 바로 사용할 수 있도록 Hugging Face와 협력하고 있습니다.

Databricks와 협력하여 AI 모델 만들기

Databricks와의 파트너십을 통해 데이터 과학자 및 엔지니어에게 MLflow의 강력한 기능을 제공할 예정입니다. MLflow는 엔드투엔드 머신 러닝 수명 주기를 관리하기 위한 오픈 소스 플랫폼으로, 이번 파트너십을 통해 사용자들은 대규모 ML 모델을 보다 쉽게 배포하고 관리할 수 있게 될 것입니다. 이 파트너십을 통해 Cloudflare Workers AI 기반 개발자들은 MLflow 호환 모델을 활용하여 Cloudflare의 전역 네트워크에 쉽게 배포할 수 있습니다. 개발자들은 MLflow를 사용하여 Cloudflare의 서버리스 개발자 플랫폼에 직접 모델을 효율적으로 패키징, 구현, 배포 및 추적할 수 있습니다.

CIO, CFO, 법률 고문의 수면을 방해하지 않는 AI

AI 분야는 빠르게 발전하고 있으며 개발자에게 필요한 도구를 제공하는 것이 중요하지만, 고려해야 할 중요한 사항이 있을 때 신속한 조치를 취하는 것은 쉽지 않습니다. 규정 준수, 비용, 개인정보 보호는 어떻게 해결하나요?

규정을 준수하는 AI

우리 대부분은 생각하고 싶지 않은 일이지만, AI 및 데이터 레지던시는 점점 더 많은 정부의 규제를 받고 있습니다. 정부가 데이터를 로컬에서 처리하거나 자국민의 데이터를 국내에 저장할 것을 요구함에 따라 기업은 추론 워크로드가 실행되는 위치에서도 이를 고려해야 합니다. 네트워크 에지는 대기 시간과 관련하여 가능한 한 폭넓게 사용할 수 있는 기능을 제공합니다. 300개 도시에 걸친 네트워크 및 Data Localization Suite와 같은 솔루션의 강점은 규정을 준수하여 로컬 AI 배포를 유지하는 데 필요한 구체적인 세부 사항을 지원할 수 있다는 것입니다.

비용 효율적인 AI

AI를 실험하고 있는 많은 친구 및 동료들과 AI에 대해 논의할 때, AI는 비용이 많이 든다는 공감대를 형성하곤 합니다. AI는 생산이 시작되거나 가치를 실현하기도 전에 비용을 낭비하기가 쉽습니다. AI 플랫폼의 의도는 비용을 저렴하게 만드는 것이지만, 더 중요한 것은 사용한 만큼만 비용을 청구하는 것입니다. Workers AI를 직접 사용하든 AI Gateway를 활용하든, AI 지출을 방지하는 데 필요한 가시성과 도구를 제공하는 것이 목표입니다.

개인정보 보호를 강화하는 AI

고객 경험과 비즈니스 운영의 중심에 AI를 도입하는 경우, 사용자는 AI를 통해 처리되는 모든 데이터가 안전하게 관리된다는 확신을 갖기를 희망합니다. Cloudflare는 언제나 그렇듯이 개인정보 보호에 우선순위를 두고 접근합니다. 당사는 Cloudflare를 거치는 고객 데이터를 대규모 언어 모델 학습을 위한 추론에 활용하지 않을 것을 보장합니다.

우리는 이제 시작일 뿐입니다

AI는 이제 막 시작 단계에 불과하며, 여러분께 말씀드리건대, 앞으로의 여정은 쉽지만은 않을 겁니다! 이 기술의 장점을 계속 발견해 나가면서 우리 앞에 펼쳐진 무한한 가능성에 놀라움과 경이로움을 느끼지 않을 수 없습니다. 의료 서비스 혁신부터 업무 방식 혁신에 이르기까지, AI는 우리가 상상하지 못했던 방식으로 업계의 판도를 바꿀 준비가 되어 있습니다. 그러니 준비하세요, 여러분. AI의 미래는 그 어느 때보다 밝아 보이며, 우리는 다음 단계가 기대되니까요!

이 마지막 메시지는 인공지능이 생성한 것이지만, 그 마음만은 진심입니다. 이는 시작에 불과하며 우리는 여러분이 만들어낼 결과물이 기대됩니다.

Cloudflare 블로그