구독해서 새 게시물에 대한 알림을 받으세요.

AI Gateway는 누구나 이용 가능함: 생성형 AI 워크로드를 관리하고 확장하기 위한 통합 인터페이스

2024. 05. 22.

9분 읽기
AI Gateway is generally available: a unified interface for managing and scaling your generative AI workloads.

2024년 4월 Developer Week에서 Cloudflare는 Workers AI의 일반 가용성을 발표했으며, 오늘 AI Gateway의 일반 가용성도 발표하게 되어 기쁩니다. 2023년 9월 창립기념일 주간에 AI Gateway의 베타 버전을 출시하고 5억 건 이상의 요청을 접수했으며 이제 프로덕션에 사용할 준비가 되었습니다.

AI Gateway는 생성형 AI 워크로드를 관리하고 확장하기 위한 통합 인터페이스를 제공하는 AI 운영 플랫폼입니다. 그 핵심에서, AI Gateway는 모델이 실행되는 위치와 관계없이 서비스와 추론 공급자 사이에서 프록시처럼 작동합니다. 코드 단 한 줄만으로도 성능, 보안, 안정성, 관찰 가능성에 초점을 맞춘 강력한 기능 세트를 사용할 수 있으며, 이를 AI 작업에 대한제어판이라고 생각하면 됩니다. 이는 시작에 불과합니다. Cloudflare에서는 가까운 미래에 진행할 흥미로운 기능으로 가득 찬 로드맵을 계획하고 있으며, AI 게이트웨이는 AI 워크로드를 최대한 활용하고자 하는 모든 조직을 위한 도구가 될 것입니다.

AI Gateway의 포워드 프록시 설정을 보여주는 아키텍처 다이어그램

프록시를 추가하는 이유와 Cloudflare를 이용해야 하는 이유는?

AI 공간은 빠르게 움직이기 때문에 매일 새로운 모델, 공급자, 프레임워크가 출시되는 것처럼 보입니다. 변화율이 높기 때문에 특히 모델이나 공급자를 두 개 이상 사용하는 경우 추적하기가 어렵습니다. 이것이 AI Gateway를 출시하게 된 원동력 중 하나로, 당사에서는 내일 모레 변경된다 하더라도 모든 모델과 도구에 대해 일관된 단일 제어판을 제공하고자 합니다.

AI 앱을 구축하는 많은 개발자 및 조직과 대화를 해봤지만, 한 가지 분명한 사실은 이들은 AI 작업과 관련하여 더 많은 관찰 가능성, 제어 능력, 도구를 원한다는 것입니다. 이는 많은 AI 공급자가 모델 개발에 집중하고 플랫폼 기능에는 덜 집중하기 때문에 부족한 부분입니다.

AI Gateway를 위해 Cloudflare를 선택해야 하는 이유는? 어떤 면에서는 그 선택이 자연스러운 것 같습니다. Cloudflare에서는 지난 10여 년 동안 최대 규모의 전역 네트워크 중 하나를 운영하여 전 세계 고객에게 성능, 안정성, 보안을 지원함으로써 더 나은 인터넷을 구축하는 것을 지원해 왔습니다. Cloudflare는 전체 웹 사이트의 거의 20%에서 리버스 프록시로 사용됩니다. 저희 전문 지식을 활용하면 코드 한 줄만 변경해도 하나의 제어판에서 AI 앱에 대한 관찰 가능성, 신뢰성, 제어 능력을 지원할 수 있어 자연스러운 진행처럼 느껴졌습니다. 이를 통해 고객은 구축에 집중할 수 있습니다.

다음은 OpenAI JS SDK를 사용하여 한 줄 코드를 변경한 것입니다. 그리고 다른 공급자, SDK, 언어를 참조하려면 저희 문서를 확인해 보세요.

import OpenAI from 'openai';

const openai = new OpenAI({
apiKey: 'my api key', // defaults to process.env["OPENAI_API_KEY"]
	baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai"
});

오늘 발표에는 무엇이 포함될까요?

고객과 대화를 나눠본 결과, 더 고급 기능으로 이동하기 전에 몇 가지 기본 기능에 초점을 맞춰야 한다는 점이 분명해졌습니다. 앞으로의 기능도 정말 기대되지만, 오늘 GA로 제공되는 주요 기능은 다음과 같습니다.

Analytics: 다수의 공급자로부터의 메트릭을 집계합니다. 시간에 따른 요청, 토큰, 비용 등 트래픽 패턴 및 사용량을 확인합니다.

AI Gateway 대시보드의 Analytics 탭

실시간 로그: 구축하는 요청 및 오류에 대한 인사이트를 확보합니다.

Cohere에 전송된 세 개의 요청을 실행하여 발생한 실시간 로그

캐싱: 사용자 지정 캐싱 규칙을 활성화하고 원래 모델 공급자 API를 사용하는 대신 반복 요청에 Cloudflare의 캐시를 사용하여 비용과 대기 시간을 절약할 수 있습니다.

요청 캐싱 규칙 설정

레이트 리미팅: 비용을 절감하거나 남용을 방지하기 위해 앱에서 수신하는 요청 수를 제한하여 앱을 확장하는 방식을 제어합니다.

레이트 리미팅 트래픽 규칙 설정

선호하는 공급자 지원: AI Gateway는 이제 2024년 5월 중순부터 Workers AI와 Groq 및 Cohere를 포함하여 가장 인기 있는 10개 공급자를 기본적으로 지원합니다.

3대 LLM 공급자(Cohere, Groq, OpenAI)의 실시간 로그]

범용 엔드포인트: 오류 발생 시 다른 모델 또는 추론 공급자로의 요청 폴백을 정의하여 복원력을 개선합니다.

curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug} -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "workers-ai",
    "endpoint": "@cf/meta/llama-2-7b-chat-int8",
    "headers": {
      "Authorization": "Bearer {cloudflare_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "messages": [
        {
          "role": "system",
          "content": "You are a friendly assistant"
        },
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": {
      "Authorization": "Bearer {open_ai_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  }
]'

앞으로의 계획은?

Cloudflare에서는 개발자들로부터 많은 피드백을 받았고, 향후 진정한 마법을 실현하는 데 도움이 될 기본 기능인 영구 로그 및 사용자 지정 메타데이터와 같은 몇 가지 확실한 기능들이 곧 출시될 예정입니다.

하지만 잠시 뒤로 물러서서 비전을 공유해 보겠습니다. Cloudflare에서는 우리 플랫폼이 개별 부분의 모음보다 통합된 전체로서 훨씬 더 강력하다고 믿습니다. Cloudflare AI 제품에 적용된 이러한 사고방식은 사용하기 쉽고 결합하며 조화롭게 실행되어야 함을 의미합니다.

다음과 같은 여정을 상상해 보겠습니다. 먼저 Workers AI에 온보딩하여 최신 오픈 소스 모델로 추론을 실행합니다. 다음으로, AI Gateway를 활성화하여 가시성과 제어 능력을 개선하고 영구 로그 저장을 시작합니다. 그런 다음 추론 결과를 조정하기 시작하면 영구 로그, 신속한 관리 도구, 기본 제공 평가 기능을 활용할 수 있습니다. 이제 추론 결과를 개선하기 위해 분석적 결정을 내려야 합니다. 데이터 기반 개선이 이루어질 때마다 더 많은 것을 원하게 됩니다. 따라서 입력/출력에 주석을 달며, 본질적으로 구조화된 데이터 세트를 구축하는 데 도움이 되는 피드백 API를 구현하는 것입니다. 이 시점에서, 클릭 한 번으로 전역 네트워크에 즉시 배포할 수 있는 미세 조정에서 한 걸음 더 나아간 것이며, 여기서 멈추지 않습니다. 여러분은 계속해서 로그와 피드백을 수집하면서 최종 사용자에게 최상의 결과를 제공할 수 있도록 미세 조정 어댑터를 지속해서 재구축할 수 있습니다.

지금은 어디까지나 현재 희망 사항일 뿐이지만, Cloudflare에서는 이렇게 AI Gateway와 AI 제품군의 미래를 구상하고 있습니다. 가장 기본적인 설정부터 시작하여 Cloudflare의 AI 플랫폼을 벗어나지 않고도 보다 고급 워크플로우로 점진적으로 발전할 수 있어야 합니다. 결국, 위에서 설명한 것과 정확히 일치하지 않을 수도 있지만, Cloudflare가 AI를 위한 최고의 공간이 될 수 있도록 최고의 AI 운영 도구를 제공하기 위해 최선을 다하고 있다는 것을 확신하실 수 있습니다.

시작하려면 어떻게 해야 하나요?

AI Gateway는 오늘부터 모든 요금제에서 사용할 수 있습니다. AI Gateway를 아직 사용해보지 않으셨다면 Cloudflare 개발자 문서를 확인하고 지금 시작하세요. 현재 AI Gateway의 핵심 기능은 무료로 제공되며 Cloudflare 계정과 한 줄의 코드만으로 시작할 수 있습니다. 향후에는 지속적인 로깅 및 비밀 관리 등의 더 많은 프리미엄 기능을 유료로 제공할 예정입니다. 질문이 있으면 Discord 채널을 통해 연락해 주세요.

Cloudflare에서는 전체 기업 네트워크를 보호하고, 고객이 인터넷 규모의 애플리케이션을 효과적으로 구축하도록 지원하며, 웹 사이트와 인터넷 애플리케이션을 가속화하고, DDoS 공격을 막으며, 해커를 막고, Zero Trust로 향하는 고객의 여정을 지원합니다.

어떤 장치로든 1.1.1.1에 방문해 인터넷을 더 빠르고 안전하게 만들어 주는 Cloudflare의 무료 앱을 사용해 보세요.

더 나은 인터넷을 만들기 위한 Cloudflare의 사명을 자세히 알아보려면 여기에서 시작하세요. 새로운 커리어 경로를 찾고 있다면 채용 공고를 확인해 보세요.
Developer Platform (KO)Developers (KO)Open Source (KO)Workers AI (KO)AI Gateway (KO)AI (KO)한국어

X에서 팔로우하기

Kathy Liao|@kathyyliao
Michelle Chen|@_mchenco
Phil Wittig|@pdwittig
Cloudflare|@cloudflare

관련 게시물

2024년 4월 05일 오후 1:01

브라우저 렌더링 API GA, Cloudflare Snippets, SWR 출시, 모든 사용자에게 Workers for Platforms 제공

이제 모든 유료 Workers 고객이 향상된 세션 관리 기능을 갖춘 브라우저 렌더링 API를 사용할 수 있습니다...

2024년 4월 03일 오후 1:30

R2, 이벤트 알림, Google 클라우드 스토리지로부터의 마이그레이션 지원, 저빈도 액세스 스토리지 계층 추가

Cloudflare R2의 새로운 세 가지 기능(이벤트 알림, Google 클라우드 스토리지로부터의 마이그레이션 지원, 저빈도 액세스 스토리지 계층)을 소개하게 되어 기쁩니다...

2024년 4월 02일 오후 1:01

Workers AI 레벨 업: 정식 출시 및 더 많은 새로운 기능 제공

오늘 Cloudflare의 추론 플랫폼인 Workers AI가 GA가 되고, LoRA를 사용하여 세밀하게 조정된 모델과 HuggingFace 원클릭 배포를 지원하는 등의 발표를 하게 되어 기쁩니다. 이제 Cloudflare Workers가 파이썬 프로그래밍 언어 등을 지원합니다...

2024년 4월 02일 오후 1:00

Workers AI에서 LoRA를 사용하여 세밀하게 조정된 모델 실행하기

Workers AI는 이제 LoRA를 사용하여 미세 조정된(fine-tuned) 모델을 지원합니다. 하지만 LoRA란 무엇이며 작동 원리는 무엇일까요? 이 글에서는 미세 조정, LoRA 및 일부 수학적 개념에 대해 자세히 살펴보고 모든 작동 원리에 대한 세부 사항을 공유해 드리겠습니다...