Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

AI Gateway est en disponibilité générale : une interface unifiée pour maîtriser la gestion et l'évolutivité de vos charges de travail d'IA générative

2024-05-22

Lecture: 5 min.
Cet article est également disponible en English, en 繁體中文, en Deutsch, en 日本語, en 한국어, en Español et en 简体中文.

À l'occasion de la Developer Week, en avril 2024, nous avons annoncé la disponibilité générale de Workers AI, et aujourd'hui, nous sommes heureux d'annoncer qu'AI Gateway est également en disponibilité générale. Depuis le lancement de la version bêta en septembre 2023, à l'occasion de la Semaine anniversaire, nous avons traité plus de 500 millions de requêtes en proxy et sommes maintenant prêts à vous permettre d'utiliser ce service en production.

AI Gateway is generally available: a unified interface for managing and scaling your generative AI workloads.

AI Gateway est une plateforme AI Ops qui offre une interface unifiée pour maîtriser la gestion et l'évolutivité de vos charges de travail d'IA générative. Fondamentalement, la plateforme se comporte comme un proxy entre votre service et vos fournisseurs d'inférence, quel que soit l'endroit où s'exécute votre modèle. Avec une seule ligne de code, vous pouvez accéder à un ensemble de puissantes fonctionnalités d'amélioration des performances, de la sécurité, de la fiabilité et de l'observabilité ; vous pouvez considérer ce service comme le plan de contrôle de vos opérations AI Ops. Et ce n'est que le commencement – nous disposons d'une feuille de route remplie de fonctionnalités passionnantes dont le déploiement est prévu dans un avenir proche, grâce auxquelles AI Gateway s'imposera comme un outil incontournable pour toutes les entreprises désireuses d'exploiter au mieux leurs charges de travail basées sur l'IA.

Pourquoi ajouter un proxy, et pourquoi choisir Cloudflare ?

architecture diagram illustrating the setup of AI Gateway as a forward proxy

Le secteur de l'IA évolue rapidement, et chaque jour semble voir apparaître un nouveau modèle, fournisseur ou infrastructure. Face au rythme rapide de ces changements, il devient difficile de suivre l'évolution du secteur, surtout si vous faites appel à plusieurs modèles ou fournisseurs. Et c'est l'un des facteurs à l'origine du lancement d'AI Gateway : nous souhaitons fournir un plan de contrôle unique et cohérent pour tous vos modèles et outils, même s'ils changent demain, puis changent encore le lendemain.

Nous avons échangé avec de nombreux développeurs et entreprises créant des applications IA, et une chose est claire : tous souhaitent bénéficier de davantage d'observabilité, de contrôle et d'outils autour de leurs pratiques AI Ops. C'est une approche qui fait défaut à de nombreux fournisseurs d'IA qui se concentrent principalement sur le développement de modèles, plutôt que sur les fonctionnalités de leur plateforme.

Pourquoi choisir Cloudflare pour votre déploiement d'AI Gateway ? À certains égards, cela semble naturel. Depuis maintenant plus de 10 ans, nous nous consacrons à bâtir un Internet meilleur en gérant l'un des plus vastes réseaux mondiaux, et nous soutenons nos clients dans le monde entier en alliant performances, fiabilité et sécurité – Cloudflare est utilisée comme proxy inverse par près de 20 % de la totalité des sites web. Grâce à notre savoir-faire, ce choix s'apparente à une progression naturelle ; il vous suffit de modifier une ligne de code pour nous permettre de vous aider à améliorer l'observabilité, la fiabilité et le contrôle de vos applications IA (et tout cela, depuis un plan de contrôle unique), afin de vous permettre de vous concentrer sur le développement.

Voici la modification de la ligne de code effectuée avec le SDK JS d'OpenAI. Vous pouvez également accéder à notre documentation pour consulter d'autres fournisseurs, SDK et langages.

Qu'inclut actuellement le service ?

import OpenAI from 'openai';

const openai = new OpenAI({
apiKey: 'my api key', // defaults to process.env["OPENAI_API_KEY"]
	baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai"
});

Après avoir échangé avec nos clients, il est devenu évident que nous devions prioriser certaines fonctionnalités fondamentales avant de nous intéresser à certaines fonctionnalités plus avancées. Bien que nous soyons très enthousiastes à la perspective des futures fonctionnalités, voici les principales fonctionnalités actuellement proposées par la plateforme en disponibilité générale :

Données analytiques : regroupe les indicateurs issus de plusieurs fournisseurs. Visualisez les modèles de trafic et l'utilisation, notamment le nombre de requêtes, les jetons et les coûts au fil du temps.

Journalisation en temps réel : accédez à des informations sur les requêtes et les erreurs pendant le développement.

Mise en cache : activez des règles personnalisées de mise en cache et utilisez le cache de Cloudflare pour les requêtes répétitives, au lieu de contacter l'API du fournisseur du modèle d'origine, afin de réaliser des économies en termes de coûts et de réduire la latence.

Real-time logs from running three requests to Cohere

Contrôle du volume des requêtes : maîtrisez l'évolutivité de votre application en limitant le nombre de requêtes reçues par votre application, afin de contrôler les coûts ou d'empêcher les utilisations abusives.

Set up rules for caching requests

Prise en charge de vos fournisseurs préférés : AI Gateway offre désormais la prise en charge native de Workers AI et de dix des fournisseurs les plus populaires, parmi lesquels Groq et Cohere, depuis la mi-mai 2024.

Set up rules for rate limiting traffic

Point de terminaison universel : en cas d'erreur, améliorez la résilience en définissant des instances de requêtes de secours vers un autre modèle ou un autre fournisseur d'inférence.

Real time logs from three LLM providers - Cohere, Groq, and OpenAI

Quels sont les événements à venir ?

curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug} -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "workers-ai",
    "endpoint": "@cf/meta/llama-2-7b-chat-int8",
    "headers": {
      "Authorization": "Bearer {cloudflare_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "messages": [
        {
          "role": "system",
          "content": "You are a friendly assistant"
        },
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": {
      "Authorization": "Bearer {open_ai_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  }
]'

Nous avons recueilli de nombreux commentaires de la part des développeurs, et certaines évolutions futures évidentes sont d'ores et déjà prévues à terme, à l'image des journaux persistants et les métadonnées personnalisées – des fonctionnalités fondamentales qui contribueront à révéler tout le potentiel de la plateforme à l'avenir.

Maintenant, toutefois, permettez-nous de prendre un peu de recul et de partager notre vision. Chez Cloudflare, nous pensons que notre plateforme est beaucoup plus puissante lorsqu'elle est déployée sous forme d'ensemble unifié, plutôt que sous la forme d'une collection de composantes individuelles. Appliquée à nos produits d'IA, cette approche implique qu'ils doivent être faciles à utiliser, à associer et à exécuter en harmonie.

Imaginons le parcours suivant. Vous accomplissez d'abord le processus d'intégration à la plateforme Workers AI, afin d'exécuter l'inférence avec les modèles open source les plus récents. Ensuite, vous activez AI Gateway, afin de bénéficier d'une visibilité et d'un contrôle meilleurs, et vous commencez à stocker des journaux persistants. Vous pouvez alors commencer à affiner vos résultats d'inférence, afin de tirer parti des journaux persistants, des outils de gestion des commandes et de la fonctionnalité d'évaluation intégrée. Maintenant, vous prenez des décisions fondées sur des données analytiques, afin d'améliorer vos résultats d'inférence. À chaque amélioration reposant sur des données, vous en voulez davantage. Alors, vous déployez notre API de collecte de commentaires, qui facilite l'annotation des entrées/sorties, et construisez en substance un ensemble de données structuré. À ce stade, vous êtes à deux pas d'une opération d'affinage en un clic, que vous pouvez déployer instantanément sur notre réseau mondial – mais ce n'est pas encore terminé ! Tout en continuant à collecter des journaux et des commentaires, vous pouvez continuellement redévelopper vos adaptateurs d'affinage, afin d'offrir les meilleurs résultats à vos utilisateurs finaux.

À l'heure actuelle, il ne s'agit là que d'une histoire ambitieuse, mais c'est ainsi que nous envisageons l'avenir d'AI Gateway et de notre suite IA dans son ensemble. Vous devriez pouvoir commencer par une configuration extrêmement simple, puis évoluer progressivement vers des flux de travail plus avancés – et ce, sans quitter la plateforme IA de Cloudflare. Au final, le processus pourrait ne pas se dérouler exactement comme nous l'avons décrit ci-dessus, mais vous pouvez être certain que nous engageons à vous proposer les meilleurs outils AI Ops, afin de contribuer à faire de Cloudflare le meilleur endroit pour l'IA.

Comment me lancer ?

AI Gateway est dès aujourd'hui disponible avec l'ensemble des offres. Si vous n'avez pas encore utilisé AI Gateway, consultez notre documentation pour développeurs et lancez-vous ! Les fonctionnalités de base d'AI Gateway actuellement disponibles sont proposées gratuitement, et il suffit d'un compte Cloudflare et d'une ligne de code pour faire vos premiers pas. À l'avenir, des fonctionnalités payantes exclusives, telles que la journalisation persistante et la gestion des secrets, seront disponibles. Si vous avez des questions, contactez-nous sur notre canal Discord.

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
Developer PlatformDéveloppeursOpen SourceWorkers AIConnectivity CloudAI Gateway (FR)AI

Suivre sur X

Kathy Liao|@kathyyliao
Michelle Chen|@_mchenco
Phil Wittig|@pdwittig
Cloudflare|@cloudflare

Publications associées

31 octobre 2024 à 13:00

Moving Baselime from AWS to Cloudflare: simpler architecture, improved performance, over 80% lower cloud costs

Post-acquisition, we migrated Baselime from AWS to the Cloudflare Developer Platform and in the process, we improved query times, simplified data ingestion, and now handle far more events, all while cutting costs. Here’s how we built a modern, high-performing observability platform on Cloudflare’s network....

24 octobre 2024 à 13:05

Build durable applications on Cloudflare Workers: you write the Workflows, we take care of the rest

Cloudflare Workflows is now in open beta! Workflows allows you to build reliable, repeatable, long-lived multi-step applications that can automatically retry, persist state, and scale out. Read on to learn how Workflows works, how we built it on top of Durable Objects, and how you can deploy your first Workflows application....