Cloudflare의 AI 플랫폼: 에이전트를 위해 설계된 추론 계층

본 콘텐츠는 사용자의 편의를 고려해 자동 기계 번역 서비스를 사용하였습니다. 영어 원문과 다른 오류, 누락 또는 해석상의 미묘한 차이가 포함될 수 있습니다. 필요하시다면 영어 원문을 참조하시기를 바랍니다.

AI 모델은 빠르게 변화하고 있습니다. 현재 에이전트 코딩에 가장 적합한 모델이 3개월 안에 다른 공급자를 통해 완전히 다른 모델이 될 수도 있습니다. 또한 실제 사용 사례에서는 둘 이상의 모델을 호출해야 하는 경우가 많습니다. 고객 지원 에이전트는 빠르고 저렴한 모델을 사용하여 사용자의 메시지를 분류할 수 있습니다. 계획하기 위한 대규모 추론 모델 경량 모델을 적용해 개별 작업을 실행할 수 있습니다.

즉, 한 공급자에게 재정적으로나 운영상으로만 국한되지 않고 모든 모델에 액세스할 수 있어야 합니다. 공급자 전반의 비용을 모니터링하고, 공급자 중 한 곳에서 중단이 발생했을 때 안정성을 보장하며, 사용자가 어디에 있든 대기 시간을 관리할 수 있는 적절한 시스템을 마련해야 합니다.

이러한 문제는 AI로 구축할 때면 항상 겪는 문제지만, 에이전트를 구축하는 경우에는 더욱 시급해집니다. 간단한 챗봇은 사용자 프롬프트당 하나의 추론 호출을 할 수 있습니다. 한 에이전트가 단일 작업을 완료하기 위해 10개의 통화를 체인으로 연결했는데, 느린 공급자 하나가 50ms를 추가하는 것이 아니라 500ms를 갑자기 늘릴 수 있습니다. 한 번의 요청 실패는 재시도가 아니라 갑작스러운 다운스트림 실패의 연속입니다.

AI Gateway와 Workers AI를 출시한 이후 Cloudflare에서 AI 기반 애플리케이션을 구축하는 개발자들 사이에서 놀라운 채택률을 보였고, 그에 발맞춰 빠른 속도로 출시하고 있습니다! 지난 몇 달 만에 Cloudflare에서는 대시보드를 새로고침하고, 설정이 없는 기본 게이트웨이, 업스트림 실패 시 자동 재시도, 더욱 세분화된 로깅 제어를 추가했습니다. 현재는 Cloudflare를 통합 추론 계층으로 만들었습니다. 모든 공급자의 AI 모델에 액세스할 수 있는 하나의 API로, 빠르고 안정적으로 구축되었습니다.

하나의 카탈로그, 하나의 통합 엔드포인트

오늘부터 동일한 AI.run() 이미 Workers AI에 사용 중인 Workers를 사용하는 경우 Cloudflare에서 호스팅하는 모델을 OpenAI, Anthropic, 기타 공급자의 모델로 전환하는 것만으로 단 한 번에 변경할 수 있습니다.

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

몇 주 이내에 Workers를 사용하지 않는 사람들을 위해 REST API 지원을 출시할 예정이므로 모든 환경에서 전체 모델 카탈로그에 액세스할 수 있습니다.

또한, 하나의 API, 단 한 줄의 코드만으로 모델 간 전환, 단 하나의 크레딧으로 결제함으로써 12여 개 공급자의 70여 개 모델에 액세스할 수 있게 되었다는 소식을 기쁜 마음으로 전해 드립니다. 그리고 이를 빠르게 확장하고 있습니다.

Cloudflare Workers AI에서 호스팅되는 오픈 소스 모델부터 주요 모델 공급자의 독점 모델에 이르기까지 사용 사례에 가장 적합한 모델을 찾으려면 모델 카탈로그 를 살펴보세요. AI Gateway를 통해 자체 모델을 제공하게 될 Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu 에서 모델에 대한 액세스를 확대하게 되어 기쁩니다. 특히, 이미지, 비디오, 음성 모델을 포함하도록 모델 제공을 확장하고 있으므로 멀티모달 애플리케이션을 구축할 수 있습니다

하나의 API를 통해 모든 모델에 액세스하면 한 곳에서 AI 지출을 모두 관리할 수 있습니다. 오늘날 대부분의 기업은 여러 공급자에 걸쳐 평균 3.5개의 모델을 호출하고 있습니다. 이는 하나의 공급자가 AI 사용량에 대한 전체적인 관점을 제공할 수 없음을 의미합니다. AI Gateway를 사용하면 하나의 중앙 집중식 장소에서 AI 지출을 모니터링하고 관리할 수 있습니다.

요청에 사용자 지정 메타데이터를 포함하면 무료 사용자 대 유료 사용자의 지출 등, 가장 중요하게 생각하는 속성에 대한, 개별 고객별, 앱의 특정 워크플로별 비용 내역을 확인할 수 있습니다.

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );

자체 모델 가져오기

AI Gateway를 사용하면 하나의 API를 통해 모든 공급자의 모델에 접근할 수 있습니다. 하지만 자체 데이터 또는 특정 사용 사례에 최적화된 모델로 미세 조정한 모델을 실행해야 하는 경우도 있습니다. 이를 위해 사용자가 자체 모델을 Workers AI로 가져올 수 있도록 노력하고 있습니다.

당사 트래픽의 절대 다수는 플랫폼에서 사용자 지정 모델을 실행하는 Enterprise 고객 전용 인스턴스에서 발생하며, 이를 더 많은 고객에게 제공하고자 합니다. 이를 위해 Replicate의 Cog 기술을 활용하여 머신 러닝 모델을 컨테이너화하는 것을 지원합니다.

Cog는 아주 간단하게 설계되었습니다. cog.yaml 파일에 종속성을, Python 파일에 추론 코드를 작성하기만 하면 됩니다. Cog를 사용하면 CUDA 종속성, Python 버전, 웨이트 로딩 등 ML 모델 패키징에 대한 모든 어려운 사항이 추상화됩니다.

cog.yaml 파일의 예:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

모델을 설정하는 함수와 추론 요청(예측)을 수신할 때 실행되는 함수가 있는 predict.py 파일의 예:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

그런 다음 cog build를 실행하여 컨테이너 이미지를 빌드하고 Cog 컨테이너를 Workers AI로 푸시할 수 있습니다. Cloudflare가 이 모델을 배포하고 제공하며, 고객은 이러한 모델에 대해 일반적인 Workers AI API를 통해 액세스할 수 있습니다.

Cloudflare에서는 이 기능을 더 많은 고객에게 제공하기 위한 고객 대면 API, Wrangler 명령 등의 대규모 프로젝트를 진행하여 자체 컨테이너를 푸시할 수 있도록 하고, GPU 스냅샷을 통해 더 빠른 콜드 스타트를 제공하는 등의 작업을 진행하고 있습니다. 우리는 이를 Cloudflare팀 및 우리의 비전을 안내하는 외부 고객과 함께 내부적으로 테스트했습니다. Cloudflare와 디자인 파트너로 참여하는 데 관심이 있으시면 문의해 주세요! 머지않아 누구나 Workers AI를 통해 자신의 모델을 패키징하고 사용할 수 있게 될 것입니다.

첫 번째 토큰을 향한 빠른 경로

라이브 에이전트를 구축할 때 AI Gateway와 함께 Workers AI 모델을 사용하면 특히 강력합니다. 사용자의 속도 인식은 전체 응답에 걸리는 시간이 아니라 첫 번째 토큰까지의 시간이나 에이전트가 응답하기 시작하는 속도에 달려 있습니다. 총 추론이 3초라고 하더라도, 첫 번째 토큰을 50ms 더 빠르게 얻는 것은 느리다고 느끼는 에이전트와 느리다고 느끼는 에이전트의 차이를 만들어냅니다.

전 세계 330개 도시에 있는 Cloudflare 데이터 센터 네트워크는 AI Gateway가 사용자 및 추론 엔드포인트 모두에 가깝게 위치하여 스트리밍이 시작되기 전 네트워크 시간을 최소화한다는 것을 의미합니다.

Workers AI의 공개 카탈로그에도 오픈 소스 모델이 게시되어 있으며, 여기에는 Kimi K2.5 와 실시간 음성 모델 등 에이전트 전용의 대규모 모델이 포함되어 있습니다. AI Gateway를 통해 이러한 Cloudflare 호스팅 모델을 호출하면 코드와 추론이 동일한 전역 네트워크에서 실행되므로 에이전트의 대기 시간이 최대한 짧으므로 공용 인터넷을 통한 추가 홉이 필요하지 않습니다.

자동 장애 조치로 안정성을 제공하도록 구축

에이전트를 구축할 때 사용자는 속도만이 아니라 안정성도 중요하게 생각합니다. 상담원 워크플로의 모든 단계는 이전 단계에 따라 달라집니다. 통화 하나가 실패하면 다운스트림 체인 전체에 영향을 미칠 수 있으므로 안정적인 추론은 에이전트에게 매우 중요합니다.

AI Gateway를 통해 여러 공급자가 사용 가능한 모델을 호출했는데 한 공급자가 다운되는 경우, 자체 장애 조치 로직을 작성할 필요 없이 저희가 자동으로 사용 가능한 다른 공급자에게 라우팅합니다.

Agents SDK로 장기 실행 에이전트를 구축하는 경우, 스트리밍 추론 호출은 연결 끊김에도 복원력이 있습니다. AI Gateway는 에이전트의 수명과 관계없이 스트리밍 응답이 생성될 때 버퍼링합니다. 에이전트가 추론 도중 중단되면, 추론 호출을 새로하거나 동일한 출력 토큰에 두 배를 지불하지 않고도 AI Gateway에 다시 연결하여 응답을 가져올 수 있습니다. Agents SDK에 내장된 체크포인트와 결합하면, 최종 사용자가 전혀 알아차리지 못합니다.

복제

Replicate 팀이 공식적으로 저희 AI 플랫폼 팀에 합류 하여 이제는 별도의 팀이라고 자부하지조차 않을 정도입니다. 우리는 모든 Replicate 모델을 AI Gateway로 가져오고 호스팅된 모델을 Cloudflare 인프라로 플랫폼을 변경하는 등 Replicate와 Cloudflare 간의 통합을 위해 열심히 작업했습니다. 곧 AI Gateway를 통해 Replicate에서 애용하던 모델에 액세스하고 Workers AI의 Replicate에서 배포한 모델을 호스팅할 수 있게 됩니다.

시작하기

시작하려면 AI Gateway 또는 Workers AI에 대한 문서를 확인하세요. Agents SDK를 통해 Cloudflare에서 에이전트를 구축하는 방법에 대해 자세히 알아보세요.

Cloudflare 블로그

Cloudflare의 AI 플랫폼: 에이전트를 위해 설계된 추론 계층

하나의 카탈로그, 하나의 통합 엔드포인트

자체 모델 가져오기

첫 번째 토큰을 향한 빠른 경로

자동 장애 조치로 안정성을 제공하도록 구축

복제

시작하기

Cloudflare TV에서 보기

Introducing Precursor: detecting agentic behavior with continuous client-side signals

이제 Worker 앞에 자체 캐시를 가질 수 있습니다

내 사이트, 내 규칙: 모든 고객을 위한 새로운 AI 트래픽 옵션

AI 검색을 더욱 똑똑하게 만들기