Replicate wird Teil von Cloudflare

Wir haben eine spannende Neuigkeit für Sie: Replicate, die führende Plattform für die Ausführung von KI-Modellen, wird Teil von Cloudflare.

Wir haben das Gespräch mit Replicate aufgrund unserer vielen Gemeinsamkeiten aufgenommen, die weit über eine Affinität zu lebhaften Farben hinausgehen. Mit der Cloudflare Workers-Entwicklerplattform wollen wir die Entwicklung und Bereitstellung von Full-Stack-Anwendungen so leicht wie möglich gestalten. Replicate verfolgt ein ganz ähnliches Ziel, nämlich die Bereitstellung eines KI-Modells ebenso leicht zu machen wie das Schreiben einer Zeile Programmcode. Uns ist klargeworden, dass wir gemeinsam etwas noch Besseres schaffen können, indem wir die Replicate-Plattform direkt in Cloudflare integrieren.

Wir freuen uns, Ihnen diese Neuigkeit mitzuteilen, und sind schon gespannt darauf, was unsere Kunden daraus machen werden. Durch die Integration der Tools von Replicate bei Cloudflare ist unsere Entwicklerplattform auch in Zukunft der beste Ort im Internet, um KI-gestützte oder agentenbasierte Workflows zu entwickeln und zu implementieren.

Was bedeutet das für Sie?

Bevor wir mehr über die Zukunft von KI sprechen, möchten wir die Fragen beantworten, die Replicate- und Cloudflare-Nutzer am meisten beschäftigen. Zunächst in aller Kürze:

Für bestehende Replicate-Nutzer: Ihre API und Workflows laufen weiterhin störungsfrei. Sie werden in Kürze von der gesteigerten Performance und Zuverlässigkeit des globalen Netzwerks von Cloudflare profitieren.

Für bestehende Workers AI-Nutzer: Sie können sich auf eine erhebliche Erweiterung des Modellkatalogs freuen und werden künftig Feinabstimmungen und benutzerdefinierte Modelle direkt auf Workers AI ausführen können.

Nun zurück zu dem, was uns so optimistisch in unsere gemeinsame Zukunft blicken lässt.

Die KI-Revolution hat ohne großes Aufsehen begonnen und ist aus Open Source-Projekten hervorgegangen

Lange bevor KI in aller Munde war, wurde sie jahrzehntelang einfach als „maschinelles Lernen“ bezeichnet. Es handelte sich um ein spezialisiertes, fast schon akademisches Feld. Der Fortschritt vollzog sich stetig, aber in abgeschotteter Weise: Die entscheidenden Durchbrüche fanden in ein paar wenigen großen, gut finanzierten Forschungslaboren statt. Die Modelle waren monolithisch, die Daten proprietär und die Werkzeuge für die meisten Entwickler nicht zugänglich. Doch all das änderte sich, als die Kultur der Open Source-Zusammenarbeit – die bereits das moderne Internet aufgebaut hat – auf maschinelles Lernen traf und Forschende und Unternehmen begannen, nicht nur ihre wissenschaftlichen Arbeiten, sondern auch ihre Modellgewichtungen und ihren Quellcode zu veröffentlichen.

Dies sorgte für einen beispiellosen Innovationsschub. Allein in den letzten paar Jahren war das Tempo atemberaubend. Was vor 18 Monaten (manchmal fühlt es sich sogar an wie vor wenigen Tagen) noch der neuste Stand der Technik war, gilt heute als Grundstandard. Am deutlichsten zeigt sich dieses Tempo im Bereich der generativen KI.

Der Übergang von leicht verstörend wirkenden, verschwommenen Experimenten zu fotorealistischer Bilderzeugung hat sich gefühlt innerhalb eines Wimpernschlags vollzogen. Quelloffene Modelle wie Stable Diffusion haben Entwicklern sofort ungeahnte kreative Möglichkeiten eröffnet, und das war erst der Anfang. Wenn man sich heute den Modellkatalog von Replicate anschaut, findet man dort Tausende von Bildmodellen aller Art, von denen jedes auf dem vorherigen aufbaut.

Diese Entwicklung war nicht nur bei Bildmodellen zu beobachten, sondern auch bei Video-, Audio- und Sprachmodellen und vielen weiteren.

Doch dieser beeindruckende, von der Community vorangetriebene Fortschritt stellt uns in der Praxis vor eine gewaltige Herausforderung: Wie lassen sich diese Modelle eigentlich ausführen? Jedes neue Modell weist unterschiedliche Abhängigkeiten auf, benötigt spezifische GPU-Hardware (und zwar in ausreichendem Umfang) und erfordert eine komplexe Bereitstellungsinfrastruktur, um skaliert werden zu können. Entwickler verbrachten mehr Zeit damit, sich mit CUDA-Treibern und requirements.txt-Dateien zu beschäftigen, als mit der eigentlichen Erstellung ihrer Anwendungen.

Genau dieses Problem hat Replicate gelöst. Die Firma hat eine Plattform geschaffen, die diese Komplexität vollständig beseitigt (indem ihr Open Source-Tool Cog Modelle in standardisierte, reproduzierbare Container verpackt). Das erlaubt es jedem Entwickler oder Data Scientist, selbst die komplexesten quelloffenen Modelle mit einem einfachen API-Aufruf auszuführen.

Heute umfasst der Katalog von Replicate mehr als 50.000 quelloffene und einer Feinabstimmung unterzogene Modelle. Durch das Open Source-Prinzip haben sich viele Möglichkeiten eröffnet. Das Toolset von Replicate geht aber noch weiter und erlaubt Entwicklern den Zugriff auf alle von ihnen benötigten Modelle zentral an einem einzigen Ort, ohne Wenn und Aber. Mit seinem Marktplatz bietet das Unternehmen außerdem reibungslosen Zugang zu führenden proprietären Modellen wie GPT-5 und Claude Sonnet – alles über eine einzige, übergreifende API.

Besonders hervorzuheben ist, dass Replicate nicht nur einen Inferenzdienst entwickelt, sondern auch eine Community aufgebaut hat. So viel Innovatives entsteht dadurch, dass man sich von der Arbeit anderer inspirieren lässt, darauf aufbaut und sie weiterentwickelt. Replicate ist zur zentralen Plattform für Entwickler geworden, die die neuesten Modelle in einer öffentlichen Umgebung ausprobieren, teilen, optimieren und damit experimentieren wollen.

Gemeinsam mehr erreichen: KI-Katalog trifft auf KI-Cloud

Um zur Workers-Platform zurückzukommen: Unser Ziel war es von Anfang an, die Entwicklung von Full-Stack-Anwendungen ohne Infrastrukturaufwand zu ermöglichen. Das gilt zwar weiterhin, doch durch KI haben sich die Anforderungen an moderne Anwendungen grundlegend verändert.

Heute werden ganz andere Applikationen entwickelt als noch vor drei Jahren. Im Gegensatz zu heute hat damals noch niemand Agenten geschaffen oder mit KI Launch-Videos generiert. Infolgedessen haben sich auch die Bedürfnisse und Erwartungen der Entwickler an die (KI-)Cloud geändert.

Um dem gerecht zu werden, hat Cloudflare damit begonnen, die Grundpfeiler der KI-Cloud zu entwickeln. Dabei sollte Inferenz an der Edge und damit in Nutzernähe ausgeführt werden. Wir reden hier nicht von einem einzelnen Produkt, sondern von einem vollständigen Stack:

Workers AI: Serverless-GPU-Inferenz in unserem globalen Netzwerk
AI Gateway: Eine Steuerungsebene für Zwischenspeicherung, Durchsatzbegrenzung und Beobachtung jeder KI-API
Daten-Stack: Einschließlich Vectorize (unsere Vektordatenbank) und R2 (zur Modell- und Datenspeicherung)
Abstimmung: Tools wie AI Search (früher Autorag), Agenten und Workflows zur Erstellung komplexer, mehrstufiger Anwendungen
Fundament: Alles ist auf unserer zentralen Entwicklerplattform aus Workern, Durable Objects und dem Rest unseres Stacks aufgesetzt

Während wir Entwicklern dabei helfen, ihre Anwendungen zu skalieren, verfolgt Replicate ein ganz ähnliches Ziel: eine ebenso unkomplizierte Implementierung von KI-Modellen wie von Quellcode zu ermöglichen. An dieser Stelle fügt sich alles ineinander. Während Replicate über eine(n) der branchenweit größte(n) und am stärksten in Anspruch genommene(n) Modellkataloge und Entwickler-Communitys verfügt, betreibt Cloudflare ein globales Netzwerk und eine Serverless-Inferenzplattform, die beide extrem leistungsstark sind. Gemeinsam bieten wir das Beste aus beiden Welten: Die umfassendste Auswahl an Modellen, die auf einer schnellen, zuverlässigen und erschwinglichen Inferenzplattform ausgeführt werden können.

Unsere gemeinsame Vision

Für die Community: Der Hub für KI-Erforschung

Modelle mit anderen auszutauschen, Feinabstimmungen von Modellen zu veröffentlichen, Sterne zu sammeln und im „Playground“ zu experimentieren: diese Möglichkeiten bilden das Herzstück der Replicate-Community. Wir werden weiterhin in diese Plattform investieren und sie ausbauen, um sie als wichtigste Anlaufstelle für KI-Forschung und -Experimente zu etablieren, die bereits jetzt dank des globalen Cloudflare-Netzwerks schneller und reaktionsfähiger ist.

Die Zukunft der Inferenz: Eine einzige Plattform für alle Modelle

Wir wollen die besten Eigenschaften beider Plattformen vereinen. Dafür werden wir den gesamten Replicate-Katalog mit seinen mehr als 50.000 Modellen und Feinabstimmungen bei Workers AI integrieren. Sie haben also die Wahl: Sie können Modelle in der flexiblen Umgebung von Replicate oder auf der Serverless-Plattform von Cloudflare ausführen – alles von einem einzigen Ort aus.

Doch wir beschränken uns nicht auf eine Erweiterung des Katalogs. Wir können außerdem bekannt geben, dass wir mit fachkundiger Unterstützung durch das Replicate-Team Feinabstimmungsfunktionen in Workers AI integrieren werden. Außerdem sorgen wir dafür, dass Workers AI flexibler wird als je zuvor. Bald werden Sie Ihre eigenen benutzerdefinierten Modelle in unser Netzwerk einbinden können. Um diesen Prozess reibungslos, reproduzierbar und bequem zu gestalten, machen wir uns die Erfahrung von Replicate mit Cog zunutze.

Die KI-Cloud: Mehr als nur Inferenz

Ein Modell auszuführen ist nur ein Teil des großen Ganzen. Wirklich spannend wird es, wenn KI mit einer kompletten Anwendung verknüpft wird. Stellen Sie sich vor, was Sie alles erschaffen können, wenn der umfangreiche Katalog von Replicate tiefgreifend in die gesamte Cloudflare-Entwicklerplattform integriert ist. Sie können beispielsweise ein Modell ausführen und die Ergebnisse direkt bei R2 oder Vectorize speichern, Inferenz durch einen Worker oder eine Queue starten, mit Durable Objects den Status eines KI-Agenten verwalten oder eine generative Echtzeit-Benutzeroberfläche mit WebRTC und WebSockets erstellen.

Um all dies zu verwalten, werden wir unsere übergreifende Inferenzplattform tiefgreifend bei AI Gateway integrieren. Dadurch erhalten Sie eine zentrale Steuerungsebene für Beobachtbarkeit, Prompt-Management, A/B-Tests und Kostenanalysen für alle Ihre Modelle – unabhängig davon, ob diese bei Cloudflare, Replicate oder einem anderen Anbieter betrieben werden.

Willkommen im Team!

Wir möchten das Replicate-Team herzlich bei Cloudflare willkommen heißen. Sein Engagement für die Entwickler-Community und seine Fachkenntnis bezüglich des KI-Ökosystems sind unübertroffen. Wir können es kaum erwarten, gemeinsam die Zukunft der KI zu gestalten.

Der Cloudflare-Blog

Replicate wird Teil von Cloudflare

Was bedeutet das für Sie?

Die KI-Revolution hat ohne großes Aufsehen begonnen und ist aus Open Source-Projekten hervorgegangen

Gemeinsam mehr erreichen: KI-Katalog trifft auf KI-Cloud

Unsere gemeinsame Vision

Für die Community: Der Hub für KI-Erforschung

Die Zukunft der Inferenz: Eine einzige Plattform für alle Modelle

Die KI-Cloud: Mehr als nur Inferenz

Willkommen im Team!

Slashing agent token costs by 98% with RFC 9457-compliant error responses

AI Security for Apps ist jetzt allgemein verfügbar

The truly programmable SASE platform

How we rebuilt Next.js with AI in one week