Annonce d'AI Gateway : rendre les applications IA plus observables, plus fiables et plus évolutives

Aujourd'hui, nous sommes ravis d'annoncer notre version bêta d'AI Gateway, le portail qui rendra vos applications d'IA plus observables, fiables et évolutives.

Announcing AI Gateway: making AI applications more observable, reliable, and scalable

AI Gateway se trouve entre votre application et les API d'IA auxquelles votre application adresse des requêtes (comme OpenAI) et c'est ce qui nous permet de mettre en cache les réponses, limiter et réessayer les requêtes, puis fournir les analyses nécessaires au contrôle et au suivi de l'utilisation. AI Gateway gère tous les aspects nécessaires à la quasi-totalité des applications d'IA, vous permettant ainsi d'économiser du temps à consacrer au développement afin de vous concentrer sur ce que vous créez.

Connexion de votre application à AI Gateway

Une seule ligne de code est nécessaire aux développeurs pour commencer à utiliser AI Gateway de Cloudflare. Il vous suffit de remplacer l'URL dans vos appels API par votre point de terminaison AI Gateway unique. Par exemple, avec OpenAI, vous devez définir "https://gateway.ai.cloudflare.com/v1/ACCOUNT_TAG/GATEWAY/openai" comme baseURL au lieu de "https://api.openai.com/v1", et c'est tout. Vous pouvez conserver vos jetons dans votre environnement de code, et nous consignerons la requête dans AI Gateway avant de la transmettre à l'API finale avec votre jeton.

Nous prenons actuellement en charge des fournisseurs de modèles tels que OpenAI, Hugging Face et Replicate, et nous prévoyons d'en ajouter d'autres à l'avenir. Nous prenons en charge les différents points de terminaison des fournisseurs ainsi que la diffusion des réponses, de sorte que tout devrait fonctionner dès que vous aurez configuré la passerelle. Le point de terminaison dédié à ces fournisseurs vous permet de connecter vos applications à AI Gateway en changeant une ligne de code, sans toucher à la structure d'origine de votre charge utile.

// configuring AI gateway with the dedicated OpenAI endpoint

const openai = new OpenAI({
  apiKey: env.OPENAI_API_KEY,
  baseURL: "https://gateway.ai.cloudflare.com/v1/ACCOUNT_TAG/GATEWAY/openai",
});

Nous disposons également d'un point de terminaison universel que vous pouvez utiliser si vous souhaitez bénéficier d'une plus grande souplesse dans vos requêtes. Avec le point de terminaison universel, vous avez la possibilité de définir des modèles de secours et de gérer les tentatives de requêtes. Par exemple, supposons qu'une requête ait été adressée à OpenAI GPT-3, mais que l'API soit en panne ; avec le point de terminaison universel, vous pouvez définir Hugging Face GPT-2 comme modèle de secours et la passerelle peut automatiquement renvoyer cette requête à Hugging Face. Cette option est très utile pour améliorer la résilience de votre application dans les cas où vous remarquez des erreurs inhabituelles, où votre débit est limité, ou si une facture devient coûteuse, et que vous voulez vous diversifier avec d'autres modèles. Avec le point de terminaison universel, il vous suffit de modifier votre charge utile pour spécifier le fournisseur et le point de terminaison, et nous pourrons acheminer correctement les requêtes pour vous. Consultez l'exemple de requête ci-dessous et la documentation pour plus de détails sur le schéma du point de terminaison universel.

Gagnez en visibilité sur l'utilisation de votre application

# Using the Universal Endpoint to first try OpenAI, then Hugging Face

curl https://gateway.ai.cloudflare.com/v1/ACCOUNT_TAG/GATEWAY  -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": { 
      "Authorization": "Bearer $OPENAI_TOKEN",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "huggingface",
    "endpoint": "gpt2",
    "headers": { 
      "Authorization": "Bearer $HF_TOKEN",
      "Content-Type": "application/json"
    },
    "query": {
      "inputs": "What is Cloudflare?"
    }
  },
]'

Maintenant que votre application est connectée à Cloudflare, nous pouvons vous aider à recueillir des données analytiques et vous donner un aperçu et un contrôle du trafic qui passe par vos applications. Quel que soit le modèle ou l'infrastructure que vous utilisez dans le backend, nous pouvons vous aider à consigner les requêtes et à analyser des données telles que le nombre de requêtes, le nombre d'utilisateurs, le coût de fonctionnement de l'application, la durée des requêtes, etc. Il s'agit là d'analyses de base que les fournisseurs de modèles devraient présenter, mais il est toutefois étonnamment difficile d'obtenir une visibilité sur ces indicateurs avec les fournisseurs de modèles habituels. AI Gateway va encore plus loin et vous permet d'agréger les analyses de plusieurs fournisseurs.

Contrôler l'évolution de votre application

L'une des plaintes que nous entendons souvent concerne le coût de la création et de l'exécution des applications d'IA. Les coûts de chaque appel d'API sont imprévisibles, et peuvent être élevés et s'accumuler rapidement, empêchant les développeurs de faire évoluer leurs applications à leur plein potentiel. À la vitesse à laquelle l'industrie évolue, vous souhaitez pouvoir vous développer sans être limité ni rester à la traîne ; c'est là que la mise en cache et le contrôle du volume de requêtes peuvent vous aider. Nous permettons aux développeurs de mettre en cache leurs appels d'API afin que les nouvelles requêtes puissent être servies à partir de notre cache plutôt que de l'API d'origine, ce qui est moins coûteux et plus rapide. Le contrôle du volume de requêtes peut également contribuer à la maîtrise des coûts en limitant le nombre de requêtes et en empêchant toute activité excessive ou suspecte. Les développeurs ont toute latitude pour définir les règles de mise en cache et de contrôle du volume (de requêtes), de sorte que les applications peuvent évoluer au rythme que vous souhaitez.

La plateforme Workers AI

AI Gateway s'associe parfaitement à nos nouveaux produits Workers AI et Vectorize, de telle sorte que vous pouvez créer des applications d'IA full-stack au sein de l'écosystème Workers. Qu'il s'agisse de déployer des applications avec Workers, d'exécuter l'inférence de modèles à la périphérie avec Workers AI, de stocker des intégrations vectorielles sur Vectorize ou de gagner en visibilité sur vos applications avec AI Gateway, la plateforme Workers est votre guichet unique pour donner vie à vos applications d'IA. Pour savoir comment utiliser AI Gateway avec Workers AI ou les différents fournisseurs, consultez notre documentation.

Prochaine étape : le scénario d'utilisation en entreprise

Nous livrons la version 1 d'AI Gateway avec quelques fonctionnalités de base, mais nous avons l'intention de développer le produit pour couvrir des scénarios d'utilisation plus complets ; alertes d'utilisation, protection contre le jailbreak, routage dynamique de modèles avec tests A/B, et règles de cache avancées. Mais ce qui nous intéresse vraiment, ce sont les autres manières d'appliquer AI Gateway...

À l'avenir, nous voulons développer AI Gateway pour en faire un produit qui aide les organisations à surveiller et à observer la manière dont leurs utilisateurs ou leurs employés utilisent l'IA. De cette façon, vous pouvez actionner un commutateur et faire en sorte que toutes les requêtes au sein de votre réseau à destination de fournisseurs (comme OpenAI) passent d'abord par Cloudflare . Vous pouvez ainsi enregistrer les requêtes des utilisateurs, appliquer des politiques d'accès, activer des stratégies de contrôle du volume de requêtes et de prévention de perte de données (DLP). Un exemple éloquent : si un employé colle accidentellement une clé API dans ChatGPT, AI Gateway peut être configuré pour voir la requête sortante et expurger la clé API ou bloquer complètement la requête, l'empêchant ainsi d'atteindre OpenAI ou tout autre fournisseur final. Nous pouvons également consigner et émettre des alertes sur les requêtes suspectes, afin que les organisations puissent enquêter de manière proactive et contrôler certains types d'activité. AI Gateway devient alors un outil vraiment puissant pour les organisations qui, même si elles sont enthousiasmées par l'efficacité que promet l'IA hésitent à faire confiance à l'IA lorsque la confidentialité des données et l'erreur de l'utilisateur constituent des menaces vraiment critiques. Nous espérons qu'AI Gateway pourra atténuer ces inquiétudes et faciliter l'adoption des outils d'IA par les organisations.

Que vous soyez un développeur d'applications ou une entreprise intéressée par l'utilisation que vous employés font de l'IA, nous espérons qu'AI Gateway vous aidera à démystifier ce qui se passe à l'intérieur de vos applications - car une fois que vous aurez compris comment vos utilisateurs se servent de l'IA, vous pourrez prendre des décisions sur la manière dont vous voulez qu'ils l'utilisent. Certaines de ces fonctionnalités sont encore en développement, mais nous espérons qu'elles témoignent de la puissance d'AI Gateway et de notre vision de l'avenir.

Chez Cloudflare, nous ne jurons que par l'innovation (comme vous pouvez le constater par les annonces de notre Semaine anniversaire ) et le rythme de l'innovation dans le domaine de l'IA est absolument stupéfiant. Nous sommes ravis de pouvoir non seulement apporter notre soutien aux développeurs et aux utilisateurs des applications, mais également accélérer l'adoption et le développement de l'IA grâce à un meilleur contrôle et à une plus grande visibilité. Nous sommes impatients de découvrir ce que vous allez créer. Accédez au tableau de bord de Cloudflare pour essayer AI Gateway) et dites-nous ce que vous en pensez !

Le blog Cloudflare

Annonce d'AI Gateway : rendre les applications IA plus observables, plus fiables et plus évolutives

Connexion de votre application à AI Gateway

Gagnez en visibilité sur l'utilisation de votre application

Contrôler l'évolution de votre application

La plateforme Workers AI

Prochaine étape : le scénario d'utilisation en entreprise

Developer Week 2025 wrap-up

Startup Program update: empowering every stage of the startup journey

R2 Data Catalog: Managed Apache Iceberg tables with zero egress fees

Introducing AutoRAG: fully managed Retrieval-Augmented Generation on Cloudflare