화요일, Developer Week 2024의 AI의 날에 오신 것을 환영합니다! 이 블로그 게시물에서는 개선된 가격과 함께 공식적으로 GA로 전환되는 Workers AI, GPU 하드웨어 모멘텀 업데이트, Hugging Face 파트너십의 확장, Bring Your Own LoRA 미세 조정 추론, Workers에서의 Python 지원, AI Gateway에서의 더 많은 공급자, Vectorize 메타 데이터 필터링 등 새로운 AI 발표와 비전에 대한 개요를 공유하고자 합니다.
Workers AI GA
오늘 당사의 Workers AI 추론 플랫폼이 정식 출시되었음을 알려드리게 되어 매우 기쁩니다. 수개월간의 오픈 베타 서비스를 통해 안정성과 성능을 개선했고, 가격을 공개했으며, 카탈로그에 더 많은 모델을 추가했습니다.
성능 및 안정성 향상
Workers AI의 경우, 우리의 목표는 Cloudflare의 나머지 네트워크만큼 안정적이고 사용하기 쉬운 AI 추론을 만드는 것입니다. 내부적으로는 Workers AI에 내장된 부하 분산 기능을 업그레이드했습니다. 이제 더 많은 도시의 더 많은 GPU로 요청을 라우팅할 수 있으며, 각 도시에서는 AI 추론에 사용할 수 있는 총 용량이 얼마인지 알고 있습니다. 요청이 현재 도시의 대기열에서 대기해야 하는 경우, 대신 다른 위치로 라우팅하여 트래픽이 많을 때 더 빠르게 결과를 받을 수 있습니다. 이를 통해 모든 모델에 걸쳐 레이트 리미팅이 늘어났습니다. 베타 단계에서는 분당 50건의 요청이 가능했지만, 이제는 대부분의 LLM에서 분당 300건의 요청이 가능합니다. 소규모 모델의 경우 분당 요청 수가 1,500~3,000건으로 제한됩니다. 개별 모델의 레이트 리미팅은 개발자 문서에서 확인하세요.
인기 모델의 비용 절감
이번 달 초 Workers AI의 GA와 함께 10개의 비 베타 모델에 대한 가격 계산기를 공개했습니다. Workers AI가 추론을 실행하는 데 가장 저렴하고 접근하기 쉬운 솔루션 중 하나가 되기를 바라면서, 모델에 몇 가지 최적화를 추가하여 더 저렴하게 만들었습니다. 이제 3월 1일에 처음 공개했을 때보다 Llama 2는 7배 이상, Mistral 7B는 14배 이상 저렴하게 실행할 수 있습니다. 저희는 앞으로도 최고의 AI 추론 플랫폼을 유지하고자 하며, 가능한 한 지속해서 고객에게 최적화 기능을 제공할 예정입니다.
참고로, Workers AI 비 베타 모델의 경우 4월 1일부터 Workers AI에 대한 과금이 시작되었으며, 베타 모델은 무제한 무료입니다. 모든 고객에게 하루에 10,000개의 Workers 뉴런을 무료로 제공합니다. Workers Free 고객은 24시간 내에 10,000개의 뉴런을 사용한 후 하드 레이트 리미팅이 적용되며, Workers 유료 고객에게는 추가 뉴런 1000개당 $0.011의 사용료가 부과됩니다. 요금제에 대한 최신 정보는 Workers AI 가격 개발자 문서를 참조하세요.
새로운 대시보드 및 플레이그라운드
마지막으로, Workers AI 대시보드와 AI 플레이그라운드가 개편되었습니다. 이제 Cloudflare 대시보드의 Workers AI 페이지에 뉴런 계산을 비롯한 모델 전반의 사용량 분석이 표시되어 가격을 더 잘 예측할 수 있습니다. AI 플레이그라운드를 사용하면 다양한 모델을 빠르게 테스트 및 비교하고 프롬프트와 매개변수를 구성할 수 있습니다. 이들 새로운 도구를 통해 개발자가 Workers AI를 원활하게 구축하는 데 도움이 되기를 바랍니다. 이제 시험해 보세요!
전 세계 150여 개의 도시에서 GPU로 추론을 실행하세요
Cloudflare에서는 2023년 9월 Workers AI를 발표하면서 전 세계 데이터 센터에 GPU를 배포하기 시작했습니다. 저희는 2024년 말까지 추론에 맞게 조정된 GPU를 거의 모든 곳에 배포하여 가장 널리 배포된 클라우드-AI 추론 플랫폼이 되겠다는 약속을 이행할 계획입니다. 현재 150여 개의 도시에 GPU가 설치되어 있으며, 올해 내내 계속해서 더 많은 도시에 설치할 예정입니다.
또한 2024년 2분기에는 이전 세대보다 성능과 전력 효율성이 향상되고 안정성이 개선된 GPU가 탑재된 차세대 컴퓨팅 서버를 출시할 예정입니다. 2023년 12월 블로그 게시물에서 12세대 컴퓨트 서버 설계에 대한 미리 보기를 제공했으며, 자세한 내용은 추후 공개할 예정입니다. 12세대와 향후 출시 예정인 하드웨어를 통해 다음 단계는 더 큰 규모의 머신 러닝 모델을 지원하고 플랫폼에서 미세 조정을 제공하는 것입니다. 이를 통해 더 높은 추론 처리량, 더 짧은 대기 시간, 프로덕션 워크로드의 가용성을 달성할 수 있을 뿐만 아니라 미세 조정과 같은 새로운 범주의 워크로드에 대한 지원도 확대할 수 있게 됩니다.
Huggingface 파트너십
또한 고객에게 최고의 오픈소스를 제공한다는 정신으로 Hugging Face와의 파트너십을 이어가게 되어 기쁩니다. 이제 고객은 Hugging Face에서 가장 인기 있는 모델 중 몇 가지를 살펴보고, Workers AI 플랫폼에서 해당 모델을 사용할 수 있는 경우 클릭하여 쉽게 실행할 수 있습니다.
Hugging Face와 함께 플랫폼에 4개의 모델을 추가했다는 소식을 알려드리게 되어 기쁩니다. 이제 컨텍스트 창이 개선된 새로운 Mistral 7B v0.2 모델, Mistral 7B의 미세 조정 버전인Nous Research의 Hermes 2 Pro, Google의 Gemma 7B, OpenChat에서 미세 조정된Starling-LM-7B-beta에 액세스할 수 있습니다. 현재 Cloudflare의 Workers AI 플랫폼으로 구동되는 서버리스 GPU 추론에 사용할 수 있도록 Hugging Face로 선별한 14개의 모델이 있으며, 곧 더 많은 모델을 추가할 예정입니다. 이들 모델은 모두 TGI 백엔드를 갖춘 Hugging Face의 기술을 사용하여 제공되며, 저희는 이러한 모델을 큐레이션, 최적화, 배포하기 위해 Hugging Face 팀과 긴밀히 협력하고 있습니다.
Cloudflare와 협업하여 개발자가 AI에 더 쉽게 액세스할 수 있게 만들게 되어 기쁩니다. “전 세계에 배포된 GPU로 구동되는 서버리스 API를 통해 가장 인기 있는 오픈 모델을 제공하는 것은 Hugging Face 커뮤니티에는 엄청난 제안입니다. 이를 활용하여 무엇을 구축하게 될지 정말 기대됩니다.”- Hugging Face 공동 창립자 겸 최고기술책임자(CTO) Julien Chaumond
Workers AI에서 지원되는 모든 개방형 모델은 이 Hugging Face 컬렉션에서 찾을 수 있으며, 각 모델 카드의 상단에 "Cloudflare Workers AI에 배포" 버튼이 있습니다. 시작하려면 Hugging Face의 블로그 게시물을 읽고 개발자 문서를 살펴 보세요. Workers AI에서 보고 싶은 모델이 있으신가요? Discord에서 요청이 포함된 메시지를 보내 주세요.
미세 조정된 추론 지원 - BYO LoRAs
미세 조정된 추론은 Workers AI에 대하여 요청이 가장 많았던 기능 중 하나로, 이제 BYO(Bring Your Own) LoRA를 통해 한 걸음 더 가까워졌습니다. 연구자들은 인기 있는 Low-Rank Adaptation 방법을 사용하여 완전히 미세 조정된 모델처럼 모든 모델 매개변수를 다시 작성하는 대신 모델을 가져 와서 일부 모델 매개변수를 당면한 작업에 맞게 조정하는 방법을 알아냈습니다. 이는 모델을 완전히 미세 조정하는 데 드는 계산 비용 없이도 미세 조정된 모델 결과를 얻을 수 있음을 의미합니다.
Cloudflare에서는 이제 완전히 미세 조정된 모델보다 훨씬 적은 비용, 작은 규모, 빠른 속도로 런타임에 기본 모델에 LoRA 어댑터를 적용하여 미세 조정된 추론을 제공하는, 학습된 LoRA를 Workers AI에 도입할 수 있도록 지원합니다. 향후에는 플랫폼에서 직접 미세 조정 작업과 완전히 미세 조정된 모델을 지원할 수 있기를 바랍니다. 하지만, 오늘은 LoRA를 통해 한 걸음 더 가까이 다가갈 수 있게 되어 기쁩니다.
오늘부터 Gemma 2B와 7B, Llama 2 7B, Mistral 7B 모델에서 최대 100MB 크기와 최대 8등급의 LoRA 어댑터, 계정당 최대 30개의 LoRA를 사용할 수 있는 BYO LoRA가 오픈 베타 버전으로 제공됩니다. 항상 그렇듯이, 모델별 라이선스 약관에 포함된 모델별 사용 제약 등 서비스 약관을 염두에 두고 Workers AI와 새로운 BYO LoRA 기능을 사용하시기 바랍니다.
const response = await ai.run(
"@cf/mistralai/mistral-7b-instruct-v0.2-lora", //the model supporting LoRAs
{
messages: [{"role": "user", "content": "Hello world"],
raw: true, //skip applying the default chat template
lora: "00000000-0000-0000-0000-000000000", //the finetune id OR name
}
);
시작하려면 기술 심층 분석 블로그 게시물과 개발자 문서를 읽어보세요.
Python으로 Workers 작성
Python은 JavaScript에 이어 세계에서 두 번째로 많이 사용되는 프로그래밍 언어이자 AI 앱을 개발하는 데 가장 많이 사용되는 언어입니다. 그리고 오늘부터 오픈 베타 버전에서는 이제 Cloudflare Workers를 Python에서 작성할 수 있습니다. Python Workers는 Cloudflare의 리소스에 대한 모든 바인딩을 지원하며, 여기에는 Vectorize, D1, KV, R2 등이 포함됩니다.
LangChain은 LLM 기반 앱을 구축하는 데 가장 널리 사용되는 프레임워크입니다. Workers AI가 langchain-js에서 작동하는 방식과 마찬가지로 Python LangChain 라이브러리는 FastAPI와 같은 다른 Python 패키지와 마찬가지로 Python Workers에서 작동합니다.
Python으로 작성된 Workers는 JavaScript로 작성된 Workers처럼 간단합니다.
...그리고 wrangler.toml
에 있는 .py 파일을 가리키기만 하면 구성할 수 있습니다:
from js import Response
async def on_fetch(request, env):
return Response.new("Hello world!")
별도의 툴체인이나 사전 컴파일 단계가 필요하지 않습니다. Pyodide Python 실행 환경은 Workers 런타임에서 직접 제공되며, JavaScript로 작성된 Workers가 이미 작동하는 방식을 그대로 반영합니다.
name = "hello-world-python-worker"
main = "src/entry.py"
compatibility_date = "2024-03-18"
compatibility_flags = ["python_workers"]
자세한 내용은 문서를 살펴보고, Python Workers의 백그라운드 작동 방식에 대한 자세한 내용은동반 블로그 게시물을 참조하세요.
AI Gateway는 이제 Anthropic, Azure, AWS Bedrock, Google Vertex, Perplexity를 지원합니다
저희 AI Gateway 제품은 개발자가 분석, 캐싱, 레이트 리미팅 등을 통해 AI 앱을 더 잘 제어하고 관찰할 수 있도록 지원합니다. Cloudflare에서는 Anthropic, Google Vertex, Perplexity 등 더 많은 공급자를 계속해서 이 제품에 추가하고 있으며, 이를 오늘 발표하게 되어 매우 기쁘게 생각합니다. 2023년 12월에 Azure 및 Amazon Bedrock 지원을 조용히 출시했으며, 이는 이제 Workers AI 자체를 포함하여 가장 인기 있는 공급자를 AI Gateway를 통해 지원한다는 것을 의미합니다.
AI Gateway를 시작하려면 저희 개발자 문서를 참조하세요
곧 출시 예정: Persistent Logs
2024년 2분기에는 persistent logs 기능을 추가하여 로그(프롬프트 및 응답 포함)를 개체 스토리지, 사용자 지정 메타 데이터에 푸시할 수 있도록 하여 사용자 ID, 기타 식별자로 요청에 태그를 지정하고, 비밀 관리에 persistent logs 기능을 추가하여 앱의 API 키를 안전하게 관리할 수 있게 할 계획입니다.
저희는 AI Gateway가 AI 앱의 제어판이 되어 개발자가 다양한 모델과 공급자에게 요청을 동적으로 평가하고 라우팅할 수 있게 되기를 바랍니다. 저희가 제공하는 persistent logs 기능을 통해 개발자가 로깅된 데이터를 사용하여 클릭 한 번으로 모델을 미세 조정하고, 최종적으로는 Workers AI 플랫폼에서 직접 미세 조정 작업과 미세 조정된 모델을 실행할 수 있도록 지원하고자 합니다. AI Gateway는 AI 툴킷의 한 제품에 불과하지만, 저희는 이 제품을 통해 개발자들이 플랫폼에서 구축할 수 있는 워크플로우와 사용 사례에 대해 기대가 크며, 여러분도 기대해 주셨으면 합니다.
Vectorize 메타 데이터 필터링 및 향후 백만 개의 벡터 인덱스 GA
Vectorize 는 AI 앱용 툴킷의 또 다른 구성 요소입니다. 2023년 9월부터 오픈 베타 버전으로 제공되는 Vectorize를 통해 개발자는 Workers AI 텍스트 임베딩 모델에서 생성된 것과 같은 임베딩(벡터)을 유지하고 유사성 검색이나 추천과 같은 지원 사용 사례에 가장 가까운 일치하는 것을 쿼리할 수 있습니다. 벡터 데이터베이스가 없으면 모델 출력이 잊혀지고 모델을 다시 실행하는 데 추가 비용을 들이지 않고는 불러올 수 없습니다.
Vectorize의 오픈 베타 버전부터 메타 데이터 필터링이 추가되었습니다. 메타 데이터 필터링을 통해 개발자는 벡터 검색과 임의의 메타 데이터에 대한 필터링을 결합하여 AI 앱의 쿼리 복잡성을 지원할 수 있습니다. 저희는 Vectorize의 일반 출시 준비에 집중하면서 2024년 6월 출시를 목표로 하고 있는데, 여기에는 수백만 개의 벡터 인덱스 지원이 포함됩니다.
AI 앱 구축을 위한 가장 포괄적인 개발자 플랫폼
// Insert vectors with metadata
const vectors: Array<VectorizeVector> = [
{
id: "1",
values: [32.4, 74.1, 3.2],
metadata: { url: "/products/sku/13913913", streaming_platform: "netflix" }
},
{
id: "2",
values: [15.1, 19.2, 15.8],
metadata: { url: "/products/sku/10148191", streaming_platform: "hbo" }
},
...
];
let upserted = await env.YOUR_INDEX.upsert(vectors);
// Query with metadata filtering
let metadataMatches = await env.YOUR_INDEX.query(<queryVector>, { filter: { streaming_platform: "netflix" }} )
저희는 Cloudflare의 개발자 플랫폼에서는 모든 개발자가 전체 스택 앱을 신속하게 빌드하고 출시할 수 있어야 하며, 여기에는 AI 경험도 포함되어야 한다고 믿습니다. 저희는 Workers AI의 GA, Workers에서의 Python 지원 발표, AI Gateway, Vectorize, Hugging Face와의 파트너십 등을 통해 고객이 저희 플랫폼에서 AI로 구축할 수 있는 가능성의 세계를 넓혀왔습니다. 고객 여러분도 저희만큼이나 기대가 크시길 바라며, 모든 개발자 문서를 살펴보고 시작해서 어떤 것을 개발했는지 알려주시기 바랍니다.