Allgemeine Verfügbarkeit von AI Gateway: Eine einheitliche Schnittstelle für die Verwaltung und Skalierung Ihrer Workloads mit generativer KI

AI Gateway is generally available: a unified interface for managing and scaling your generative AI workloads.

Während der Developer Week im April 2024 haben wir die allgemeine Verfügbarkeit von Workers AI bekannt gegeben. Heute können wir Ihnen mitteilen, dass nun auch AI Gateway allgemein verfügbar ist. Seit Einführung der Beta-Version im September 2023 während unserer Birthday Week haben wir für mehr als 500 Millionen Anfragen als Proxy gedient. Nun ist das Produkt soweit, dass Sie es im Produktivbetrieb einsetzen können.

AI Gateway ist eine Plattform, die KI für den IT-Betrieb über ein einziges Interface zur Verwaltung und Skalierung von Aufgaben bietet, die sich auf generative KI stützen. Im Kern fungiert sie als Proxy zwischen Ihrem Dienst und Ihren Inferenzanbietern – unabhängig davon, wo Sie Ihr Modell betreiben. Mit einer einzigen Zeile Quellcode steht Ihnen eine Reihe leistungsstarker Funktionen rund um Performance, Sicherheit, Zuverlässigkeit und Beobachtbarkeit zur Verfügung. Sie können sich das Ganze als eine Art Schaltzentrale für Ihre KI-Aktivitäten vorstellen. Und das ist erst der Anfang: In Planung sind zahlreiche weitere spannende Features, die AI Gateway zum Tool der Wahl für jedes Unternehmen machen, das die Möglichkeiten von KI noch besser ausschöpfen möchte.

Diagramm zur Architektur von AI Gateway als Forward-Proxy

Warum ein Proxy und warum Cloudflare?

Die Welt der KI ist ausgesprochen schnelllebig. Tatsächlich könnte man meinen, es gäbe jeden Tag ein neues Modell, einen neuen Anbieter oder ein neues Framework. Das macht es schwierig, den Überblick zu behalten – vor allem, wenn man mehrere Modelle oder Anbieter gleichzeitig einsetzt. Das war eine treibende Kraft bei der Einführung von AI Gateway: Wir wollten Ihnen eine einzige, einheitliche Steuerungsebene für alle Ihre Modelle und Tools zur Verfügung stellen. Diese sollte auch dann noch funktionieren, wenn sich die von Ihnen eingesetzten Lösungen immer wieder ändern.

Wir haben deshalb mit vielen Entwicklern und Unternehmen gesprochen, die KI-Anwendungen erstellen. Dabei hat sich eines klar gezeigt: Sie wollen mehr Beobachtbarkeit, Kontrolle und Tools für ihre KI-Aktivitäten. Genau dies fehlt bei vielen KI-Anbietern, weil sich diese stark auf die Modellentwicklung und weniger auf Plattformfunktionen konzentrieren.

Warum sollten Sie sich für Cloudflare als AI Gateway entscheiden? Nun, in gewisser Weise ist dies für uns der natürliche nächste Schritt. Wir betreiben seit gut zehn Jahren eines der größten globalen Netzwerke und unterstützen Kunden auf der ganzen Welt in Sachen Performance, Zuverlässigkeit und Sicherheit. Cloudflare wird von fast 20 Prozent aller Websites als Reverse-Proxy genutzt. Aufgrund unserer Expertise lag dieser nächste Schritt auf der Hand. Sie wünschen sich Beobachtbarkeit, Zuverlässigkeit und Kontrolle für Ihre KI-Anwendungen? Wir ermöglichen Ihnen dies über eine einzige Steuerungsebene. Dafür brauchen Sie nur eine einzige Zeile Quellcode zu ändern. Danach können Sie sich wieder voll und ganz der Entwicklung Ihrer Produkte widmen.

Hier sehen Sie die einzeilige Codeänderung mit dem OpenAI JS SDK. In unserer Dokumentation finden Sie außerdem Verweise zu anderen Anbietern, SDK und Sprachen.

import OpenAI from 'openai';

const openai = new OpenAI({
apiKey: 'my api key', // defaults to process.env["OPENAI_API_KEY"]
	baseURL: "https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug}/openai"
});

Was bietet das Produkt aktuell?

Nach Gesprächen mit Kunden war klar, dass wir uns zunächst auf einige grundlegende Funktionen konzentrieren mussten, bevor wir uns fortgeschrittenen Features widmen. Wir haben zwar noch einiges vor, aber hier sind zunächst einmal die wichtigsten Funktionen, die schon jetzt allgemein verfügbar sind:

Analysen: Sie können Analysedaten von verschiedenen Anbietern zusammenführen und sich Traffic-Muster und Nutzung anzeigen lassen, einschließlich der Zahl der Anfragen, Token und Kosten im Zeitverlauf.

Registerkarte „Analytics“ im Dashboard von AI Gateway

Echtzeit-Protokolle: Während des Entwicklungsprozesses können Sie Einblick in Anfragen und Fehler gewinnen.

Echtzeit-Protokolle zur Durchführung von drei Anfragen an Cohere

Zwischenspeicherung: Um Kosten zu sparen und die Latenz zu verringern, können Sie benutzerdefinierte Regeln für die Zwischenspeicherung aktivieren und den Cache von Cloudflare für wiederholte Anfragen nutzen, anstatt auf die API des ursprünglichen Modells zurückzugreifen.

Einrichtung von Regeln für die Zwischenspeicherung von Anfragen

Durchsatzbegrenzung: Sie steuern die Skalierung Ihrer Anwendung, indem Sie die Zahl der an sie gerichteten Anfragen begrenzen. Das erlaubt es Ihnen, die Kosten im Griff zu behalten und Missbrauch zu verhindern.

Einrichtung von Regeln für die Durchsatzbegrenzung des Traffics

Unterstützung Ihrer bevorzugten Anbieter: AI Gateway unterstützt seit Mitte Mai 2024 nativ Workers AI und zehn der beliebtesten Anbieter, darunter Groq und Cohere.

Echtzeit-Protokolle für die LLM-Anbieter Cohere, Groq und OpenAI

Universeller Endpunkt: Im Fehlerfall können Sie die Ausfallsicherheit verbessern, indem Sie Ausweichlösungen für Anfragen festlegen, also alternative Modelle oder Inferenzanbieter.

curl https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_slug} -X POST \
  --header 'Content-Type: application/json' \
  --data '[
  {
    "provider": "workers-ai",
    "endpoint": "@cf/meta/llama-2-7b-chat-int8",
    "headers": {
      "Authorization": "Bearer {cloudflare_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "messages": [
        {
          "role": "system",
          "content": "You are a friendly assistant"
        },
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  },
  {
    "provider": "openai",
    "endpoint": "chat/completions",
    "headers": {
      "Authorization": "Bearer {open_ai_token}",
      "Content-Type": "application/json"
    },
    "query": {
      "model": "gpt-3.5-turbo",
      "stream": true,
      "messages": [
        {
          "role": "user",
          "content": "What is Cloudflare?"
        }
      ]
    }
  }
]'

Wie geht es weiter?

Nach zahlreichen Rückmeldungen von Entwicklern haben sich einige Funktionen als besonders wichtig herauskristallisiert, etwa dauerhafte Protokollierung und benutzerdefinierte Metadaten. Diese Features werden dazu beitragen, die Lösung künftig noch nützlicher zu machen.

Aber lassen Sie uns kurz einen Schritt zurücktreten und Ihnen unsere Vision für die Zukunft beschreiben. Bei Cloudflare sind wir davon überzeugt, dass unsere Plattform als Ganzes viel leistungsfähiger ist als die Summe ihrer Einzelteile. Für unsere KI-Produkte heißt dies, dass sie einfach zu bedienen, modular und nahtlos einsetzbar sein sollten.

Stellen wir uns Folgendes vor: Sie aktivieren zunächst Workers AI, um Inferenzen mit den neuesten Open-Source-Modellen auszuführen. Als Nächstes aktivieren Sie AI Gateway, um mehr Transparenz und Kontrolle zu erhalten und dauerhafte Protokolle zu speichern. Dann möchten Sie mit der Optimierung Ihrer Inferenzergebnisse beginnen, indem Sie Ihre dauerhaften Protokolle, unsere Prompt-Management-Tools und unsere integrierte Bewertungsfunktion nutzen. Jetzt treffen Sie analytische Entscheidungen, um Ihre Inferenzergebnisse zu verbessern. Mit jeder datengestützten Verbesserung wollen Sie höher hinaus. Deshalb implementieren Sie unsere Feedback-API, mit deren Hilfe Sie Eingaben/Ausgaben mit Anmerkungen versehen und im Wesentlichen einen strukturierten Datensatz erstellen können. An diesem Punkt sind Sie nur noch einen Schritt von einer Ein-Klick-Feinanpassung entfernt, die sofort in unserem globalen Netzwerk implementiert werden kann. Und das ist noch lange nicht alles. Während Sie weiterhin Protokolle und Feedback erfassen, können Sie Ihre Feinabstimmungsadapter kontinuierlich neu erstellen, um Ihren Endnutzern die besten Ergebnisse zu liefern.

Zum gegenwärtigen Zeitpunkt ist das noch eine Gedankenspielerei, doch so stellen wir uns die Zukunft von AI Gateway und unserer gesamten KI-Produktsuite vor. Sie sollten in der Lage sein, mit dem einfachsten Setup zu beginnen und nach und nach zu fortgeschritteneren Workflows überzugehen, ohne die KI-Plattform von Cloudflare dafür verlassen zu müssen. Letzten Endes wird es vielleicht nicht genau so kommen wie oben beschrieben. Wir sind aber auf jeden Fall fest entschlossen, Cloudflare zum ersten Wahl zu machen, wenn es um KI-Tools für den IT-Betrieb geht.

Wie kann ich loslegen?

AI Gateway ist heute in allen unseren Tarifoptionen enthalten. Wenn Sie die Lösung bislang noch nicht verwenden, werfen Sie doch einen Blick in unsere Entwicklerdokumentation und legen Sie einfach los. Die heute verfügbaren Kernfunktionen von AI Gateway sind kostenlos. Für den Einstieg benötigen Sie lediglich ein Cloudflare-Konto und eine Zeile Quellcode. Zu gegebener Zeit werden wir zusätzliche kostenpflichtige Premium-Funktionen wie dauerhafte Protokollierung und Secrets-Verwaltung anbieten. Nutzen Sie bei Fragen gern unseren Discord-Kanal.

Blog de Cloudflare

Allgemeine Verfügbarkeit von AI Gateway: Eine einheitliche Schnittstelle für die Verwaltung und Skalierung Ihrer Workloads mit generativer KI

Warum ein Proxy und warum Cloudflare?

Was bietet das Produkt aktuell?

Wie geht es weiter?

Wie kann ich loslegen?

Browser Rendering-API allgemein verfügbar, Einführung von Cloudflare Snippets, SWR, und Bereitstellung von Workers for Platforms für alle Nutzer

R2 fügt Ereignisbenachrichtigungen, Unterstützung für Migrationen von Google Cloud Storage und eine Speicherebene mit seltenem Zugriff hinzu

Workers AI wird noch besser: Allgemeine Verfügbarkeit und weitere neue Fähigkeiten

Python für Workers – mit Pyodide und WebAssembly