Jetzt abonnieren, um Benachrichtigungen über neue Beiträge zu erhalten:

Ab sofort kann der Zugriff durch KI-Modelle auf Ihre Inhalte überprüft und kontrolliert werden

2024-09-23

Lesezeit: 9 Min.
Dieser Beitrag ist auch auf English, 繁體中文, Français, 日本語, 한국어, Español, und 简体中文 verfügbar.

Bislang hatten Website-Betreiber keine Möglichkeit, zu ermitteln, in welcher Weise KI-Dienste ihre Inhalte zum Trainieren von Modellen oder für andere Zwecke verwenden. Cloudflare führt deshalb jetzt eine Reihe von Tools ein, mit denen Website-Besitzer, Kreative und Verlage die Kontrolle darüber zurückerlangen können, wie ihre Inhalte für Bots und Crawler mit KI-Bezug zugänglich gemacht werden. Alle Cloudflare-Kunden können jetzt überprüfen und steuern, wie KI-Modelle auf die Inhalte ihrer Websites zugreifen.

Im Rahmen der Einführung dieser neuen Option wird zunächst eine detaillierte Analyseübersicht für die KI-Dienste, die eine Website durchsuchen, und die konkreten Inhalte, auf die sie zugreifen, verfügbar gemacht. Die Aktivitäten lassen sich nach KI-Anbieter, Bot-Typ und den beliebtesten Bereichen der betreffenden Website aufschlüsseln. Diese Daten sind für jede Website verfügbar, die über Cloudflare läuft. Eine Konfiguration ist nicht erforderlich.

Manche Kunden haben sich bereits entschieden, Vereinbarungen direkt mit KI-Unternehmen auszuhandeln. Viele dieser Verträge enthalten Bestimmungen zu der Häufigkeit der Durchsuchung und der Art der Inhalte, auf die zugegriffen werden darf. Wir wollen den Urhebern von Inhalten die Werkzeuge an die Hand geben, mit denen sie kontrollieren können, ob diese Vereinbarungen auch eingehalten werden.  Durch die heutige Markteinführung lässt sich für Cloudflare-Kunden nun mit einem einzigen Klick ein Bericht erstellen, anhand dessen sie die im Rahmen dieser Verträge zulässigen Aktivitäten überprüfen können.

Wir sind außerdem der Auffassung, dass Websites jeder Größe bestimmen können sollten, wie sie von den Betreibern von KI-Modellen für die Nutzung ihrer Inhalte vergütet werden. Die heutige Ankündigung bietet einen Ausblick auf eine neue Cloudflare-Funktion zur Monetarisierung, mit der Website-Inhaber für das Durchsuchen ihrer Inhalte Preise festlegen, den Umfang des Zugriffs bestimmen und einen zusätzlichen Nutzen für sich schaffen können.

Wo liegt das Problem?

Bis vor Kurzem ließen sich Bots und Scraper im Web meist sauber einer von zwei Kategorien zuordnen: Sie waren entweder gut- oder bösartig. Gutartige Bots wie Suchmaschinen-Crawler halfen Internetnutzern, eine Website zu finden, und leiteten Traffic zu den Seiten. Bösartige Bots versuchten, Websites lahmzulegen, sich in Warteschlangen an legitimen Kunden vorbeizudrängen oder wettbewerbsrelevante Daten abzuschöpfen. Deshalb ist die Bot-Management-Plattform von Cloudflare so angelegt, dass dort zwischen diesen beiden großen Kategorien unterschieden und die entsprechenden Bots zugelassen oder blockiert werden können.

Doch mit Aufkommen von auf KI aufbauenden Large Language Models (LLM) und anderen generativen Tools ist eine dritte, weitaus weniger klar umrissene Kategorie entstanden. Im Gegensatz zu bösartigen Bots versuchen die mit diesen Plattformen verbundenen Crawler nicht aktiv, eine Website lahmzulegen oder Kunden zu behindern. Es geht ihnen auch nicht darum, sensible Daten zu erbeuten. Sie wollen einfach nur das durchsuchen, was auf einer Website veröffentlicht ist.

Doch anders als hilfreiche Bots leiten diese mit KI-Modellen in Verbindung stehenden Crawler auch nicht unbedingt Traffic zu einer Website. Bots von KI-Firmen durchsuchen den Inhalt von Websites, um mit den dort zu findenden Daten neue LLM zu trainieren. Dieses Material wird dann mit anderen Inhalten vermischt und ohne Quellenangabe zur Beantwortung von Nutzerfragen verwendet, ohne dass die Anwender die betreffende Website aufrufen müssen. Andere Crawler durchsuchen Inhalte, um sie auf entsprechende Nutzeranfragen als Suchmaschinenergebnisse präsentieren zu können. Das hat den Nachteil, dass diese Nutzer womöglich das erste Interface nicht verlassen und die ursprüngliche Website gar nicht aufrufen, weil sie die gesuchte Antwort bereits angezeigt bekommen.

Diese unklaren Verhältnisse stellen Website-Betreiber vor eine schwierige Entscheidung. Denn ob sie auf diesem Vorgehen Nutzen ziehen, ist unklar. Zudem befinden sie sich im Nachteil, weil sie bei dieser Entwicklung ins Hintertreffen geraten sind. Viele Websites haben diese KI-Crawler ihre Inhalte bislang durchsuchen lassen, weil sie in den meisten Fällen wie vertrauenswürdige Bots wirkten. Doch im Endergebnis wurde dadurch weniger Traffic zu den Websites geleitet, weil ihre Inhalte in den von der KI verfassten Antworten verwertet wurden.

Aus unserer Sicht stellt diese Entwicklung eine Gefahr für das offene Internet dar. Wenn Website-Inhaber das Durchsuchen ihrer Inhalte nicht kontrollieren und selbst keinen Nutzen daraus ziehen können, schreckt das vom Erstellen oder Betreiben von Internetauftritten ab. Die Urheber verbergen einen größeren Teil ihrer Inhalte hinter Bezahlschranken und die größten Verlage und Anbieter von Inhalten schließen Direktverträge ab. Betreiber von KI-Modellen haben dann Mühe, die große Menge an qualitativ hochwertigem Material auf kleineren Websites aufzuspüren und darauf zuzugreifen.

Beiden Seiten fehlen die Werkzeuge für einen geschäftlich tragfähigen und transparenten Austausch von Zugriffsrechten und Vergütung. Ab sofort bietet Cloudflare Website-Betreibern jedoch die erforderlichen Dienste zur Lösung dieses Dilemmas. Für den Einstieg haben wir einige Empfehlungen zusammengestellt, die für alle unsere Kunden Gültigkeit haben.

Schritt 1: Finden Sie heraus, wie Ihre Website von KI-Modellen genutzt wird

Für jede über Cloudflare betriebene Website steht jetzt eine neue Analyseübersicht zur Verfügung, unter der das Crawling-Verhalten beliebter und bekannter KI-Dienste zusammengefasst wird. Anhand dieser Informationen lässt sich nachvollziehen, wie Inhalte von KI-Bots durchsucht werden. Wählen Sie dafür einfach in Ihrem Dashboard die gewünschte Website aus und rufen Sie in der linken Navigationsleiste die Registerkarte „AI Audit“ auf.

BLOG-2509 2

Wenn Anbieter von KI-Modellen auf Inhalte Ihrer Website zugreifen, nutzen sie zum Durchsuchen automatisch arbeitende Bots oder Crawler. Diese fordern die Inhalte Ihrer Seite an, erfassen die Antwort und speichern sie als Teil eines zukünftigen Datentrainingssatzes oder merken sie sich für die Ausgabe zukünftiger KI-Suchmaschinenergebnisse.

Sie identifizieren sich gegenüber einer Website (und dem Cloudflare-Netzwerk) oft dadurch, dass sie in ihrer Anfrage einen HTTP-Header eintragen, der als User Agent bezeichnet wird. In manchen Fällen übermittelt ein Bot von einem dieser KI-Dienste den Header möglicherweise nicht. Dann greift Cloudflare zur Identifizierung des Bots stattdessen auf andere Informationen wie IP-Adresse oder Verhalten zurück.

Wenn sich der Bot selbst zu erkennen gibt, enthält der Header eine Textzeichenfolge mit dem Bot-Namen. Zum Beispiel durchsucht das KI-Unternehmen Anthropic manchmal Websites mit einem Bot namens ClaudeBot. Fordert dieser Dienst die Inhalte einer über Cloudflare betriebenen Website an, trägt Cloudflare als User Agent in ein Protokoll ein.

BLOG-2509 3

Anhand der für die Website protokollierten Seitenaufrufe sucht Cloudflare nach User Agents, die mit bekannten KI-Bots und Crawlern übereinstimmen. Wir fassen die Aktivitäten einzelner Crawler zusammen und stellen auch Filter zur Verfügung, mit denen die Überprüfung auf die Aktivitäten bestimmter KI-Plattformen beschränkt werden kann. Viele KI-Unternehmen setzen mehrere Crawler ein, die unterschiedlichen Zwecken dienen. Wenn OpenAI Websites zum Datensammeln durchsucht. Werden Websites dagegen für die neue KI-Suchmaschine der Firma durchforstet, benutzt sie dafür den OAI-SearchBot.

Diese Unterscheidung ist durchaus wichtig. Das Durchsuchen mit verschiedenen Arten von Bots kann sich auf den an eine Website gerichteten Traffic oder die Zuordnung der sich dort befindenden Inhalte auswirken. KI-Suchmaschinen verlinken bei ihrer Antwort oft auf Websites und bescheren diesen damit möglicherweise Besucher. In diesem Fall wären Sie vielleicht offen für Bots, die Ihre Internetpräsenz durchstöbern. Daten-Scraper von KI-Firmen haben dagegen einzig und allein die Aufgabe, so große Mengen wie möglich aus dem Internet zu lesen und mit den dort gesammelten Informationen künftige Modelle zu trainieren oder bestehende zu verbessern.

Unserer Meinung nach haben Sie ein Recht darauf, zu erfahren, warum, wann und wie oft ein Bot Ihre Website durchsucht. Mit der heute eingeführten Lösung können Sie sich die Bot-Aktivitäten in Kategorien wie KI-Daten-Scraper, KI-Such-Crawler und Archivierer einteilen lassen.

BLOG-2509 4

Anhand dieser Daten lässt sich dann analysieren, wie KI-Modelle auf Ihre Website zugreifen. Diese Menge an Informationen kann überwältigend sein – insbesondere, wenn Ihr Team noch keine Zeit hatte, über den Umgang mit dem Durchsuchen Ihrer Inhalte durch KI-Firmen zu entscheiden. Wenn Sie sich nicht sicher sind, wie Sie sich verhalten sollen, fahren Sie mit Schritt 2 fort.

Schritt 2: Nehmen Sie sich etwas Zeit, um über Ihr weiteres Vorgehen zu entscheiden

Wir haben mit mehreren Unternehmen gesprochen, die wissen, dass ihre Websites wertvolle Ziele für KI-Crawler sind. Was sie bisher aber noch nicht wissen, ist, was sie dagegen unternehmen sollen. Diese Teams benötigen Bedenkzeit, um eine wohlüberlegte Entscheidung darüber treffen zu können, ob und wie sie diesen Diensten Daten zur Verfügung stellen.

Cloudflare bietet Ihnen jetzt die Möglichkeit, sich diese Zeit mit einem einzigen Klick zu verschaffen. Jeder Kunde – unabhängig von der von ihm genutzten Tarifoption – kann alle KI-Bots und Crawler blockieren, um sich erst einmal in Ruhe zu überlegen, welche er zulassen möchte.

Um diese Option zu implementieren, rufen Sie einfach im Cloudflare-Dashboard unter der Registerkarte „Security“ (Sicherheit) die Rubrik „Bots“ auf. Folgen Sie dann dem blauen Link oben rechts, um den Umgang des Proxy von Cloudflare mit Bot-Traffic zu konfigurieren. Stellen Sie als Nächstes in dem Reiter „Block AI Scrapers and Crawlers“ (KI-Scraper- und -Crawler blockieren) die Umschaltfläche auf „Ein“.

BLOG-2509 5

Die Ein-Klick-Option nutzt eine von Cloudflare verwaltete Liste, um bekanntermaßen zu KI-Diensten gehörende Bots und Crawler am Zugriff auf Ihre Website zu hindern. Ist die Sperre eingerichtet, gewinnen Sie und Ihr Team Zeit, um zu entscheiden, wie künftig mit Ihren Inhalten verfahren werden soll.

Schritt 3: Legen Sie fest, welche Bots Sie zulassen wollen

Während dieser Atempause können Sie sich überlegen, wie die Beziehung zwischen diesen Crawlern und Ihren Inhalten aussehen soll. Wenn Ihr Team eine Entscheidung getroffen hat, können Sie sich für die Umsetzung der von ihnen diesbezüglich festgelegten Richtlinie auf das Cloudflare-Netzwerk verlassen.

Falls Sie sich entscheiden, kein Crawling zu gestatten, können Sie die oben beschriebene Sperre einfach aktiviert lassen. Sollten Sie das Durchsuchen Ihrer Inhalte in bestimmten, ausgewählten Fällen zulassen wollen, bietet Ihnen die heute eingeführte Lösung die Möglichkeit, bestimmten Arten von Bots oder nur Bots bestimmter Anbieter Zugriff auf Ihre Inhalte zu gewähren.

Manche Teams werden sich entscheiden, mit KI-Suchmaschinen in Verbindung stehenden Bots das Durchstöbern ihrer Internetauftritte gestatten, da diese Tools immer noch für erhöhtes Traffic-Aufkommen sorgen können. Andere Unternehmen schließen vielleicht Verträge mit einem bestimmten Modell-Anbieter ab und möchten deshalb jedem Bot-Typ dieses Anbieters Zugriff auf ihre Inhalte erlauben. Entsprechende Richtlinien lassen sich jetzt im Abschnitt „WAF“ des Cloudflare-Dashboards implementieren.

BLOG-2509 6

Administratoren können auch Regeln erstellen, die zum Beispiel alle KI-Bots blockieren, sofern sie nicht von einer bestimmten Plattform stammen. Diese Art von Filter kann eingesetzt werden, wenn man den meisten KI-Plattformen skeptisch gegenübersteht, sich aber mit einem Anbieter eines KI-Modells und dessen Vorgehensweise anfreunden kann. Solche Regeln können auch zur Durchsetzung von Verträgen verwendet werden, bei denen ein Website-Eigentümer ausgehandelt hat, dass das Durchsuchen durch einen einzigen Anbieter erlaubt ist. Der Administrator der Website müsste in diesem Fall eine Regel erstellen, wonach alle Arten von KI-bezogenen Bots gesperrt werden sollen. Anschließend müsste dieser eine Ausnahme hinzugefügt werden, die speziell den Bots des KI-Partners den Zugriff gestattet.

BLOG-2509 7

Wir empfehlen Kunden außerdem, eine Aktualisierung ihrer Nutzungsbedingungen in Erwägung zu ziehen, um diesen neuen Anwendungsfall abzudecken und zusätzlich diese neuen Filter anzuwenden. Wir haben die Schritte dokumentiert, die wir für gutartige Bots und Crawler in Bezug auf robots.txt-Dateien vorschlagen. Als Erweiterung dieser Best Practices fügen wir dieser Dokumentation ein neues Segment hinzu, in dem wir einen Musterabschnitt für Nutzungsbedingungen bereitstellen. Mit diesem Modell können Website-Besitzer bei Bedarf festlegen, dass beim Durchsuchen im Auftrag von KI-Firmen die in der robots.txt-Datei definierten Richtlinien befolgt werden müssen.

Schritt 4: Überprüfen Sie Ihre bestehenden Vereinbarungen bezüglich des Durchsuchens von Inhalten

Immer mehr Websites schließen Vereinbarungen direkt mit Modell-Anbietern ab, um die Verwendung ihrer Inhalte gegen Bezahlung zu lizenzieren. Viele dieser Vereinbarungen enthalten Bestimmungen, die den Crawling-Anteil für bestimmte Abschnitte oder ganze Websites vorschreiben. Bei Cloudflare finden Sie unter der Registerkarte „AI Audit“ die Werkzeuge, mit denen Sie kontrollieren können, ob diese Verträge auch eingehalten werden. Im AI Audit-Tool werden in der Tabelle unten jetzt die beliebtesten Inhalte Ihrer Website aufgelistet, und zwar geordnet nach der Anzahl der Durchsuchungen in dem Zeitraum, der im Filter oben auf der Seite festgelegt wurde. Sie können die Schaltfläche „Export to CSV“ (als CSV-Datei exportieren) anklicken, um schnell eine Datei mit den hier dargestellten Informationen herunterzuladen. Diese können Sie verwenden, um etwaige Abweichungen von der getroffenen Vereinbarung mit der KI-Plattform zu besprechen, der Sie Zugriff auf Ihre Inhalte erlauben.

BLOG-2509 8

Die Ihnen zur Verfügung stehenden Daten enthalten die Kennzahlen, die nach Aussage von Kunden für solche Vereinbarungen die größte Bedeutung haben: die Zahl der Aufrufe bestimmter Seiten und die Zahl der Aufrufe der gesamten Website.

Schritt 5: Gestalten Sie Ihre Website so, dass sich Nutzen aus KI-Durchsuchungen ziehen lässt

Nicht jeder hat die Zeit oder die Kontakte, um Vereinbarungen mit KI-Unternehmen auszuhandeln. Bislang verfügen nur die größten Anbieter von Inhalten im Internet über die Ressourcen, um die entsprechenden Bedingungen festzulegen und sich für ihr Material vergüten zu lassen.

Alle anderen haben im Grunde nur zwei Möglichkeiten hinsichtlich des Umgangs mit ihren Daten: Entweder blockieren sie sämtliche Durchsuchungen oder sie erlauben uneingeschränkten Zugriff. Die heute eingeführten Lösungen bieten den Schöpfern von Inhalten demgegenüber mehr Überblick und Kontrolle. Einem Großteil der Websites im Internet fehlt allerdings weiterhin eine Möglichkeit zur Monetarisierung.

Wir sind der Auffassung, dass Websites gleich welcher Größe für die Nutzung ihrer Inhalte angemessen vergütet werden sollten. Cloudflare plant die Einführung einer neuen Komponente im Dashboard, die über das Blockieren und Analysieren von Crawlern hinausgeht. Inhaber werden die Möglichkeit haben, einen Preis für ihre Website oder Teile ihrer Website festzulegen und dann den Modell-Anbietern auf Grundlage ihrer Durchsuchungen und eines festgelegten Preises einen bestimmten Betrag in Rechnung zu stellen. Wir kümmern uns um den Rest, damit Sie sich voll und ganz auf die Erstellung von Inhalten für Ihre Zielgruppe konzentrieren können. Um aus dieser Komponente schnellstmöglich finanziellen Nutzen ziehen zu können, sollten Sie sicherstellen, dass Ihre Websites das Cloudflare-Netzwerk nutzen. Wir haben vor, Websites in der Reihenfolge des Datums, an dem sie erstmals bei Cloudflare angemeldet wurden, zur Teilnahme an der Beta-Phase einzuladen. Möchten Sie benachrichtigt werden, sobald diese Möglichkeit für Sie besteht? Dann lassen Sie es uns hier wissen.

BLOG-2509 9

Wir schützen komplette Firmennetzwerke, helfen Kunden dabei, Internetanwendungen effizient zu erstellen, jede Website oder Internetanwendung zu beschleunigen, DDoS-Angriffe abzuwehren, Hacker in Schach zu halten, und unterstützen Sie bei Ihrer Umstellung auf Zero Trust.

Greifen Sie von einem beliebigen Gerät auf 1.1.1.1 zu und nutzen Sie unsere kostenlose App, die Ihr Internet schneller und sicherer macht.

Wenn Sie mehr über unsere Mission, das Internet besser zu machen, erfahren möchten, beginnen Sie hier. Sie möchten sich beruflich neu orientieren? Dann werfen Sie doch einen Blick auf unsere offenen Stellen.
Birthday Week (DE)AI Bots (DE)AILLM (DE)

Folgen auf X

Cloudflare|@cloudflare

Verwandte Beiträge

27. September 2024 um 13:00

Network trends and natural language: Cloudflare Radar’s new Data Explorer & AI Assistant

The Cloudflare Radar Data Explorer provides a simple Web-based interface to build more complex API queries, including comparisons and filters, and visualize the results. The accompanying AI Assistant translates a user’s natural language statements or questions into the appropriate Radar API calls....

27. September 2024 um 13:00

Advancing cybersecurity: Cloudflare implements a new bug bounty VIP program as part of CISA Pledge commitment

Cloudflare strengthens its commitment to cybersecurity by joining CISA's "Secure by Design" pledge. In line with this commitment, we're enhancing our vulnerability disclosure policy by launching a VIP bug bounty program, giving top researchers early access to our products. Keep an eye out for future updates regarding Cloudflare's CISA pledge as we work together to shape a safer digital future....

27. September 2024 um 13:00

Our container platform is in production. It has GPUs. Here’s an early look

We’ve been working on something new — a platform for running containers across Cloudflare’s network. We already use it in production, for AI inference and more. Today we want to share an early look at how it’s built, why we built it, and how we use it ourselves. ...