Anbieter von Inhalten haben Suchmaschinen-Crawler und -Bots ursprünglich gutgeheißen, weil sie das Trafficaufkommen ihrer Websites erhöht haben. Die Crawler konnten „sehen“, was auf der Website veröffentlicht wurde, und dieses Material den danach suchenden Nutzenden anzeigen. Da diese Nutzenden dann immer noch die Seite aufrufen mussten, wenn sie mehr als eine Kurzüberschrift sehen wollten, konnten Website-Betreiber ihr Material auf diese Weise monetarisieren.
Auf künstlicher Intelligenz (KI) basierende Bots durchsuchen zwar ebenfalls die Inhalte einer Website, das Bereitstellungsmodell ist jedoch ein völlig anderes. In diesem Fall tun Large Language Models (LLM) ihr Möglichstes, um die im Internet verfügbaren Inhalte zu „lesen“ und damit ein System zu trainieren, das diese Inhalte für den Nutzenden aufbereiten kann, ohne dass dieser dafür die Ursprungsseite(n) noch aufrufen muss.
KI-Anwendungen verweisen unter Umständen immer noch auf konkrete Inhalte. Wir haben aber festgestellt, dass im Verhältnis zu der Häufigkeit, mit der ein KI-Bot eine bestimmte Website durchsucht, nur sehr wenige Nutzende den betreffenden Internetauftritt tatsächlich ansteuern. Diese Herausforderung haben wir in kleinerem Rahmen diskutiert und wir präsentieren jetzt die aus diesen Gesprächen hervorgegangenen Ergebnisse in Form einer neuen Kennzahl unter der Rubrik „AI Insights“ bei Cloudflare Radar.
Nutzer von Cloudflare Radar können sich jetzt ansehen, wie oft ein bestimmtes KI-Modell Traffic an eine Website übermittelt und wie oft es diese durchsucht. Wir machen diese Analyse allgemein zugänglich, damit Website-Betreiber mithilfe dieser Informationen eine fundiertere Entscheidung darüber treffen können, welche KI-Bots sie zulassen und welche sie blockieren wollen. Außerdem möchten wir, dass sich die Nutzer ein Bild davon machen können, wie sich der Einsatz von KI insgesamt auf den Internet-Traffic auswirkt.
Wie funktioniert die Datenerhebung?
Da HTML-Seiten für diese Crawler am wertvollsten sein dürften, werden die dargestellten Verhältniswerte berechnet, indem die Gesamtzahl der Anfragen von relevanten User Agents, die mit einer bestimmten Suchmaschinen- oder KI-Plattform verbunden sind, mit Antworten des Inhaltstyps „Content-type: text/html
“ durch die Gesamtzahl der Anfragen von HTML-Inhalten geteilt wird, bei denen der „Referer
“-Header einen Hostnamen enthält, der zu einer bestimmten Suchmaschinen- oder KI-Plattformen gehört.
Die folgenden Abbildungen veranschaulichen zwei gängige Crawling-Szenarien und zeigen, dass Unternehmen je nach Zweck des Crawlers unterschiedliche User Agents einsetzen können. In der oberen wird eine einfache Transaktion dargestellt, bei der die Beispiel-KI-Plattform Inhalte zum Training eines LLM anfordert und sich selbst als „AIBot
“ bezeichnet. Bei dem unteren Szenario fordert die Beispiel-KI-Plattform Inhalte an, um eine Nutzeranfrage bezüglich Fluginformationen zu beantworten. In diesem Fall bezeichnet sie sich selbst als „AIBot-User
“. Der Anfrage-Traffic von diesen beiden User Agents wurde für die Zwecke unserer Analyse unter einem einzigen Plattformnamen zusammengefasst.
Klickt ein Nutzender auf einer Website oder Anwendung auf einen Link, sendet der Client häufig einen „Referer:
“-Header als Teil der Anfrage an die Zielseite. Im folgenden Diagramm hat die Beispiel-KI-Plattform eine Nutzerinteraktion mit Inhalten beantwortet, die Links zu externen Websites enthalten. Klickt nun der Nutzende auf einen dieser Links, wird eine Anfrage an den Content-Provider gesendet, die „ai.example.com
“ im „Referer:
“-Header enthält und so mitteilt, woher dieser Anfrage-Traffic stammt. Im Rahmen unserer Analyse werden die Hostnamen den jeweiligen Plattformen zugeordnet.
Feststellungen
Überprüfung der Verhältniswerte
Die neue Kennzahl wird in einer einfachen Tabelle angezeigt. Dabei wird die Zahl der gebündelten Anfragen an HTML-Seiten von Crawlern, die zu einer bestimmten Plattform gehören (User Agents), mit der Zahl der Anfragen von Clients, die über einen mit einer bestimmten Plattform verbundenen Hostnamen verwiesen werden, verglichen. Das auf diese Weise berechnete Verhältnis wird immer auf eine einzige Verweisanfrage normalisiert.
Die nachstehende Tabelle zeigt beispielhaft, dass für den Zeitraum vom 19. bis 26. Juni 2025 das Verhältnis von 70.900:1 bei Anthropic bis hin zu 0,1:1 bei Mistral reicht. Das heißt, dass die KI-Plattform Claude von Anthropic für jeden Verweis auf eine HTML-Seite fast 71.000 Anfragen an HTML-Seiten ausgelöst hat, während Mistral zehnmal so viele Verweise wie Crawling-Anfragen gesendet hat. (Allerdings enthält der Traffic, der auf die native Anwendung von Claude verweist, keinen „Referer:
“-Header. Unserer Einschätzung nach gilt dies auch für den von anderen nativen Anwendungen ausgehenden Traffic. Da die Verweiszahlen nur Datenverkehr von webbasierten Tools dieser Anbieter abdecken, wurden bei diesen Berechnungen die jeweiligen Verhältniswerte möglicherweise überbewertet – in welchem Umfang, ist jedoch nicht klar.)
Zum Teil aufgrund von Veränderungen in den Crawling-Mustern werden sich diese Quoten im Laufe der Zeit natürlich ändern. Die obige Tabelle zeigt auch die Veränderungen des Anteils im Vergleich zum Vorzeitraum, wobei die Veränderungen von einem Anstieg von über 6 % bei DuckDuckGo und Yandex bis zu einem Rückgang von 19,4 % bei Google reichen. Der Rückgang des Anteils von Google im Wochenvergleich hängt mit einem Rückgang des Crawling-Traffics von GoogleBot
seit dem 24. Juni zusammen, während das Wachstum von Yandex im Wochenvergleich mit einer Zunahme der Crawling-Aktivitäten von YandexBot
seit dem 21. Juni zusammenhängt, wie aus den folgenden Grafiken ersichtlich ist.
Der Data Explorer von Radar enthält eine Zeitreihenansicht dazu, wie sich diese Verhältniswerte im Lauf der Zeit verändern. Im nachfolgenden Beispiel ist dies für Baidu zu sehen. Die Zeitreihendaten sind auch über einen API-Endpunkt verfügbar.
Muster im Verweis-Traffic
Veränderungen und Trends in den zugrundeliegenden Aktivitäten sind in der zugehörigen Data Explorer-Ansicht sowie in den über API-Endpunkte verfügbaren Rohdaten (Zeitreihe, Zusammenfassung) zu erkennen. Beachten Sie, dass der Anteil des Verweis- und des Crawler-Datenverkehrs auf die in den Diagrammen enthaltenen Gruppen der „Referer“ und „Crawler“ bezogen ist und nicht auf den gesamten Cloudflare-Traffic.
In der folgenden „Referer“ (Verweis)-bezogenen Ansicht für den Großteil der ersten vier Juniwochen 2025 ist beispielsweise zu sehen, dass der Verweis-Traffic von der Suchmaschinenplattform Google dominiert wird, wobei die Daten ein relativ einheitliches Tagesmuster offenbaren. (Der google.*
-Eintrag umfasst Referral-Traffic von der Hauptseite google.com sowie von lokalen Websites wie google.es oder google.com.tw.) Aufgrund des Prefetchings unter Anwendung von Spekulationsregeln wird Referral-Traffic von Googles ASN (AS15169) hier ausdrücklich von der Analyse ausgeschlossen, da er nicht den aktiven Konsum von Inhalten durch den Nutzenden darstellt.
Eindeutige Tagesmuster sind ebenfalls bei den Anteilen der Verweis-Anfragen anderer Suchmaschinen zu erkennen, auch wenn der Anteil der Anfragen nur bei ein Bruchteil dessen beträgt, was sich bei Google messen lässt.
Im Mai war der Anteil des Traffics im Rahmen von KI-Plattformverweisen selbst in seiner Gesamtheit deutlich niedriger als der Anteil des Datenverkehrs, der durch Verweise von Suchmaschinen generiert wurde.
Veränderungen beim Crawler-Traffic
Wie bereits erwähnt, kann die Veränderung der Verhältniswerte im Laufe der Zeit durch Veränderungen bei den Crawling-Aktivitäten verursacht werden. Diese Verschiebungen sind in den im Data Explorer verfügbaren Anteilen des Crawling-Traffics sowie in den über API-Endpunkte verfügbaren Rohdaten (Zeitreihen, Zusammenfassung) sichtbar. In der folgenden Crawler-bezogenen Ansicht für nahezu die gesamten ersten vier Juniwochen 2025 wird deutlich, dass der Anteil der Anfragen im Zusammenhang mit den Crawling-Aktivitäten von Google sowohl für den Googlebot
als auch für die GoogleOther
-Identifikatoren im Laufe des Monats sinkt, mit mehreren Spitzen-/ Minimumzeiten. Ein ähnliches Muster, das im HTTP-Anfragetraffics von Googles AS15169 im gleichen Zeitraum beobachtet wurde, stimmt in etwa mit diesem Rückgang des Anteils überein.
Darüber hinaus scheint es, dass der GPTBot
von OpenAI im Laufe des Monats mehrere Zeiträume verzeichnete, in denen wenig bis gar keine Crawling-Aktivitäten beobachtet wurden.
Was heißt das für Content Provider?
Diese Verhältniswerte haben direkte Auswirkungen auf die Rentabilität von im Internet veröffentlichten Inhalten. Auch wenn sich diese Werte mit der Zeit verändern werden, besteht der Trend weiter darin, dass beim Vergleich zwischen Crawler- und Verweis-Anfragen Erstere überwiegen. Herkömmliche Suchindex-Crawler durchsuchen Inhalte für jeden übermittelten Besucher höchstens ein paar Mal. Traditionell hat die Verfügbarkeit einer Website für Crawler die Rentabilität dieses Umsatzmodells nicht verringert, sondern erhöht.
Die aktuellen von uns erhobenen Daten legen jedoch nahe, dass dies inzwischen nicht mehr der Fall ist. Die neuen Modelle konsumieren immer mehr Inhalte immer häufiger, während sie entweder die gleiche oder eine geringere Menge Traffic an den Urheber dieser Inhalte übermitteln.
Im vergangenen Jahr haben wir neue Tools veröffentlicht, mit denen Website-Betreiber die Kontrolle zurückerlangen können. Website-Betreiber können mit einem einzigen Klick die Arten von KI-Crawlern blockieren, die mit ihren Inhalten trainieren. Und heute haben wir neue Möglichkeiten vorgestellt, um den Wertaustausch für beide Seiten fair zu gestalten. Wir empfehlen Content-Erstellern jedoch weiterhin, ihre bevorzugten Richtlinien für KI-Crawler zu prüfen und dann durchzusetzen.
Last but not least …
Neben den neuen Erkenntnissen zu Crawling- und Referral-Traffic und den damit verbundenen Trends haben wir diese Gelegenheit auch genutzt, um erweiterte Inhalte verifizierter Bots (Verified Bots) zu präsentieren. Die „Bots“-Seite auf Cloudflare Radar enthält eine paginierte Liste von verifizierter Bots, in der der Name, der Eigentümer, die Kategorie und der Rang des Bots (basierend auf dem Anfragevolumen) angezeigt werden. Diese Liste wurde nun zu einem eigenständigen Verzeichnis in einem neuen Bots-Abschnitt erweitert. Das unten dargestellte Verzeichnis zeigt eine Karte für jeden verifizierten Bot an, auf der der Bot-Name, eine Beschreibung, der Bot-Eigentümer und die Kategorie sowie der Verifizierungsstatus aufgeführt sind. Nutzende können das Verzeichnis nach Bot-Namen, Eigentümer oder Beschreibung durchsuchen und auch nach Kategorien filtern (indem Sie z. B. nur Überwachungs- und Analyse-Bots auswählen).
Wenn Sie auf einen Bot-Namen in einer Karte klicken, wird eine Bot-spezifische Seite angezeigt, die Metadaten über den Bot, Informationen darüber, wie der User Agent des Bots in HTTP-Anfrage-Headern dargestellt wird und wie er in robots.txt-Direktiven angegeben werden sollte, sowie ein Traffic-Diagramm, das die zugehörigen HTTP-Anfragevolumentrends für den ausgewählten Zeitraum zeigt (standardmäßig wird ein Vergleich mit dem vorherigen Zeitraum vorgenommen). Die zugehörigen Daten sind auch über die API verfügbar. Sobald wir in Zukunft zusätzliche Informationen zu diesen Bot-spezifischen Seiten hinzufügen, werden wir die Aktualisierungen in Änderungsprotokoll-Einträgen dokumentieren.