Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

AI Gateway est en disponibilité générale : une interface unifiée pour maîtriser la gestion et l'évolutivité de vos charges de travail d'IA générative

22/05/2024

Lecture: 6 min.
AI Gateway is generally available: a unified interface for managing and scaling your generative AI workloads.

À l'occasion de la Developer Week, en avril 2024, nous avons annoncé la disponibilité générale de Workers AI, et aujourd'hui, nous sommes heureux d'annoncer qu'AI Gateway est également en disponibilité générale. Depuis le lancement de la version bêta en septembre 2023, à l'occasion de la Semaine anniversaire, nous avons traité plus de 500 millions de requêtes en proxy et sommes maintenant prêts à vous permettre d'utiliser ce service en production.

AI Gateway est une plateforme AI Ops qui offre une interface unifiée pour maîtriser la gestion et l'évolutivité de vos charges de travail d'IA générative. Fondamentalement, la plateforme se comporte comme un proxy entre votre service et vos fournisseurs d'inférence, quel que soit l'endroit où s'exécute votre modèle. Avec une seule ligne de code, vous pouvez accéder à un ensemble de puissantes fonctionnalités d'amélioration des performances, de la sécurité, de la fiabilité et de l'observabilité ; vous pouvez considérer ce service comme le plan de contrôle de vos opérations AI Ops. Et ce n'est que le commencement – nous disposons d'une feuille de route remplie de fonctionnalités passionnantes dont le déploiement est prévu dans un avenir proche, grâce auxquelles AI Gateway s'imposera comme un outil incontournable pour toutes les entreprises désireuses d'exploiter au mieux leurs charges de travail basées sur l'IA.

Schéma d'architecture illustrant la configuration d'AI Gateway en tant que proxy de transfert

Pourquoi ajouter un proxy, et pourquoi choisir Cloudflare ?

Le secteur de l'IA évolue rapidement, et chaque jour semble voir apparaître un nouveau modèle, fournisseur ou infrastructure. Face au rythme rapide de ces changements, il devient difficile de suivre l'évolution du secteur, surtout si vous faites appel à plusieurs modèles ou fournisseurs. Et c'est l'un des facteurs à l'origine du lancement d'AI Gateway : nous souhaitons fournir un plan de contrôle unique et cohérent pour tous vos modèles et outils, même s'ils changent demain, puis changent encore le lendemain.

Nous avons échangé avec de nombreux développeurs et entreprises créant des applications IA, et une chose est claire : tous souhaitent bénéficier de davantage d'observabilité, de contrôle et d'outils autour de leurs pratiques AI Ops. C'est une approche qui fait défaut à de nombreux fournisseurs d'IA qui se concentrent principalement sur le développement de modèles, plutôt que sur les fonctionnalités de leur plateforme.

Pourquoi choisir Cloudflare pour votre déploiement d'AI Gateway ? À certains égards, cela semble naturel. Depuis maintenant plus de 10 ans, nous nous consacrons à bâtir un Internet meilleur en gérant l'un des plus vastes réseaux mondiaux, et nous soutenons nos clients dans le monde entier en alliant performances, fiabilité et sécurité – Cloudflare est utilisée comme proxy inverse par près de 20 % de la totalité des sites web. Grâce à notre savoir-faire, ce choix s'apparente à une progression naturelle ; il vous suffit de modifier une ligne de code pour nous permettre de vous aider à améliorer l'observabilité, la fiabilité et le contrôle de vos applications IA (et tout cela, depuis un plan de contrôle unique), afin de vous permettre de vous concentrer sur le développement.

Voici la modification de la ligne de code effectuée avec le SDK JS d'OpenAI. Vous pouvez également accéder à notre documentation pour consulter d'autres fournisseurs, SDK et langages.

import OpenAI from 'openai';

const openai = new OpenAI({
apiKey: 'my api key', // defaults to process.env["OPENAI_API_KEY"]
	baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai"
});

Qu'inclut actuellement le service ?

Après avoir échangé avec nos clients, il est devenu évident que nous devions prioriser certaines fonctionnalités fondamentales avant de nous intéresser à certaines fonctionnalités plus avancées. Bien que nous soyons très enthousiastes à la perspective des futures fonctionnalités, voici les principales fonctionnalités actuellement proposées par la plateforme en disponibilité générale :

Données analytiques : regroupe les indicateurs issus de plusieurs fournisseurs. Visualisez les modèles de trafic et l'utilisation, notamment le nombre de requêtes, les jetons et les coûts au fil du temps.

Onglet Données analytiques du tableau de bord d'AI Gateway

Journalisation en temps réel : accédez à des informations sur les requêtes et les erreurs pendant le développement.

Journaux en temps réel issus de l'exécution de trois requêtes transmises à Cohere

Mise en cache : activez des règles personnalisées de mise en cache et utilisez le cache de Cloudflare pour les requêtes répétitives, au lieu de contacter l'API du fournisseur du modèle d'origine, afin de réaliser des économies en termes de coûts et de réduire la latence.

Configuration de règles de mise en cache des requêtes

Contrôle du volume des requêtes : maîtrisez l'évolutivité de votre application en limitant le nombre de requêtes reçues par votre application, afin de contrôler les coûts ou d'empêcher les utilisations abusives.

Configuration des règles de contrôle du volume des requêtes pour le trafic

Prise en charge de vos fournisseurs préférés : AI Gateway offre désormais la prise en charge native de Workers AI et de dix des fournisseurs les plus populaires, parmi lesquels Groq et Cohere, depuis la mi-mai 2024.

Journaux en temps réel de trois fournisseurs de LLM : Cohere, Groq et OpenAI

Point de terminaison universel : en cas d'erreur, améliorez la résilience en définissant des instances de requêtes de secours vers un autre modèle ou un autre fournisseur d'inférence.

curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug} -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "workers-ai",
    "endpoint": "@cf/meta/llama-2-7b-chat-int8",
    "headers": {
      "Authorization": "Bearer {cloudflare_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "messages": [
        {
          "role": "system",
          "content": "You are a friendly assistant"
        },
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": {
      "Authorization": "Bearer {open_ai_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  }
]'

Quels sont les événements à venir ?

Nous avons recueilli de nombreux commentaires de la part des développeurs, et certaines évolutions futures évidentes sont d'ores et déjà prévues à terme, à l'image des journaux persistants et les métadonnées personnalisées – des fonctionnalités fondamentales qui contribueront à révéler tout le potentiel de la plateforme à l'avenir.

Maintenant, toutefois, permettez-nous de prendre un peu de recul et de partager notre vision. Chez Cloudflare, nous pensons que notre plateforme est beaucoup plus puissante lorsqu'elle est déployée sous forme d'ensemble unifié, plutôt que sous la forme d'une collection de composantes individuelles. Appliquée à nos produits d'IA, cette approche implique qu'ils doivent être faciles à utiliser, à associer et à exécuter en harmonie.

Imaginons le parcours suivant. Vous accomplissez d'abord le processus d'intégration à la plateforme Workers AI, afin d'exécuter l'inférence avec les modèles open source les plus récents. Ensuite, vous activez AI Gateway, afin de bénéficier d'une visibilité et d'un contrôle meilleurs, et vous commencez à stocker des journaux persistants. Vous pouvez alors commencer à affiner vos résultats d'inférence, afin de tirer parti des journaux persistants, des outils de gestion des commandes et de la fonctionnalité d'évaluation intégrée. Maintenant, vous prenez des décisions fondées sur des données analytiques, afin d'améliorer vos résultats d'inférence. À chaque amélioration reposant sur des données, vous en voulez davantage. Alors, vous déployez notre API de collecte de commentaires, qui facilite l'annotation des entrées/sorties, et construisez en substance un ensemble de données structuré. À ce stade, vous êtes à deux pas d'une opération d'affinage en un clic, que vous pouvez déployer instantanément sur notre réseau mondial – mais ce n'est pas encore terminé ! Tout en continuant à collecter des journaux et des commentaires, vous pouvez continuellement redévelopper vos adaptateurs d'affinage, afin d'offrir les meilleurs résultats à vos utilisateurs finaux.

À l'heure actuelle, il ne s'agit là que d'une histoire ambitieuse, mais c'est ainsi que nous envisageons l'avenir d'AI Gateway et de notre suite IA dans son ensemble. Vous devriez pouvoir commencer par une configuration extrêmement simple, puis évoluer progressivement vers des flux de travail plus avancés – et ce, sans quitter la plateforme IA de Cloudflare. Au final, le processus pourrait ne pas se dérouler exactement comme nous l'avons décrit ci-dessus, mais vous pouvez être certain que nous engageons à vous proposer les meilleurs outils AI Ops, afin de contribuer à faire de Cloudflare le meilleur endroit pour l'IA.

Comment me lancer ?

AI Gateway est dès aujourd'hui disponible avec l'ensemble des offres. Si vous n'avez pas encore utilisé AI Gateway, consultez notre documentation pour développeurs et lancez-vous ! Les fonctionnalités de base d'AI Gateway actuellement disponibles sont proposées gratuitement, et il suffit d'un compte Cloudflare et d'une ligne de code pour faire vos premiers pas. À l'avenir, des fonctionnalités payantes exclusives, telles que la journalisation persistante et la gestion des secrets, seront disponibles. Si vous avez des questions, contactez-nous sur notre canal Discord.

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
Developer Platform (FR)Developers (FR)Open Source (FR)Workers AI (FR)AI Gateway (FR)AI (FR)Français

Suivre sur X

Kathy Liao|@kathyyliao
Michelle Chen|@_mchenco
Phil Wittig|@pdwittig
Cloudflare|@cloudflare

Publications associées

05 avril 2024 à 13:01

Disponibilité générale de l'API Browser Rendering, déploiement de Cloudflare Snippets et mise à disposition de Workers for Platforms pour l'ensemble des utilisateurs

L'API Browser Rendering est désormais accessible à tous les clients d'une offre Workers payante avec gestion améliorée des sessions...

03 avril 2024 à 13:30

R2 ajoute les notifications d'événements, la prise en charge des migrations depuis Google Cloud Storage et un niveau de stockage pour accès occasionnel

Nous nous réjouissons d'annonce trois nouvelles fonctionnalités pour Cloudflare R2 : les notifications d'événements, la prise en charge des migrations depuis Google Cloud Storage et un niveau de stockage pour accès occasionnel...

02 avril 2024 à 13:01

Faire évoluer Workers AI : disponibilité générale et lancement de nouvelles capacités

Nous nous réjouissons d'effectuer aujourd'hui une série d'annonces, dont la mise en disponibilité générale de Workers AI, la plateforme d'inférence de Cloudflare, ainsi que la prise en charge des modèles affinés avec les protocoles LoRA et les déploiements en un clic de HuggingFace...

02 avril 2024 à 13:00

Utiliser Python sur Workers grâce à Pyodide et WebAssembly

Nous lançons la prise en charge du langage Python pour Cloudflare Workers, désormais en bêta ouverte. Nous avons repensé nos systèmes afin qu'ils prennent en charge le Python, de l'environnement d'exécution Workers en lui-même à la manière dont les Workers sont déployés sur le réseau Cloudflare...