Jetzt abonnieren, um Benachrichtigungen über neue Beiträge zu erhalten:

Was der Einsatz von KI-Crawlern für Urheber von Webinhalten bedeutet

2025-07-01

Lesezeit: 7 Min.
Dieser Beitrag ist auch auf English verfügbar.

Anbieter von Inhalten haben Suchmaschinen-Crawler und -Bots ursprünglich gutgeheißen, weil sie das Trafficaufkommen ihrer Websites erhöht haben. Die Crawler konnten „sehen“, was auf der Website veröffentlicht wurde, und dieses Material den danach suchenden Nutzern anzeigen. Da diese Nutzer dann immer noch die Seite aufrufen mussten, wenn sie mehr als eine Kurzüberschrift sehen wollten, konnten Website-Betreiber ihr Material auf diese Weise monetarisieren.

Auf künstlicher Intelligenz (KI) basierende Bots durchsuchen zwar ebenfalls die Inhalte einer Website, das Bereitstellungsmodell ist jedoch ein völlig anderes. In diesem Fall tun Large Language Models (LLM) ihr Möglichstes, um die im Internet verfügbaren Inhalte zu „lesen“ und damit ein System zu trainieren, das diese Inhalte für den Nutzer aufbereiten kann, ohne dass dieser dafür die Ursprungsseite(n) noch aufrufen muss.

KI-Anwendungen verweisen unter Umständen immer noch auf konkrete Inhalte. Wir haben aber festgestellt, dass im Verhältnis zu der Häufigkeit, mit der ein KI-Bot eine bestimmte Website durchsucht, nur sehr wenige Nutzer den betreffenden Internetauftritt tatsächlich ansteuern. Diese Herausforderung haben wir in kleinerem Rahmen diskutiert und wir präsentieren jetzt die aus diesen Gesprächen hervorgegangenen Ergebnisse in Form einer neuen Kennzahl unter der Rubrik „AI Insights“ bei Cloudflare Radar.

Nutzer von Cloudflare Radar können sich jetzt ansehen, wie oft ein bestimmtes KI-Modell Traffic an eine Website übermittelt und wie oft es diese durchsucht. Wir machen diese Analyse allgemein zugänglich, damit Website-Betreiber mithilfe dieser Informationen eine fundiertere Entscheidung darüber treffen können, welche KI-Bots sie zulassen und welche sie blockieren wollen. Außerdem möchten wir, dass sich die Nutzer ein Bild davon machen können, wie sich der Einsatz von KI insgesamt auf den Internet-Traffic auswirkt.

Wie funktioniert die Datenerhebung?

Da HTML-Seiten für diese Crawler am wertvollsten sein dürften, werden die dargestellten Verhältniswerte berechnet, indem die Gesamtzahl der Anfragen von relevanten User Agents, die mit einer bestimmten Suchmaschinen- oder KI-Plattform verbunden sind, mit Antworten des Inhaltstyps „Content-type: text/html“ durch die Gesamtzahl der Anfragen von HTML-Inhalten geteilt wird, bei denen der „Referer“-Header einen Hostnamen enthält, der zu einer bestimmten Suchmaschinen- oder KI-Plattformen gehört. Die folgenden Abbildungen veranschaulichen zwei gängige Crawling-Szenarien und zeigen, dass Unternehmen je nach Zweck des Crawlers unterschiedliche User Agents einsetzen können. In der oberen wird eine einfache Transaktion dargestellt, bei der die Beispiel-KI-Plattform Inhalte zum Training eines LLM anfordert und sich selbst als „AIBot“ bezeichnet. Bei dem unteren Szenario fordert die Beispiel-KI-Plattform Inhalte an, um eine Nutzeranfrage bezüglich Fluginformationen zu beantworten. In diesem Fall bezeichnet sie sich selbst als „AIBot-User“. Der Anfrage-Traffic von diesen beiden User Agents wurde für die Zwecke unserer Analyse unter einem einzigen Plattformnamen zusammengefasst.

Klickt ein Nutzer auf einer Website oder Anwendung auf einen Link, sendet der Client häufig einen „Referer:“-Header als Teil der Anfrage an die Zielseite. Im folgenden Diagramm hat die Beispiel-KI-Plattform eine Nutzerinteraktion mit Inhalten beantwortet, die Links zu externen Websites enthalten. Klickt nun der Nutzer auf einen dieser Links, wird eine Anfrage an den Content-Provider gesendet, die „ai.example.com“ im „Referer:“-Header enthält und so mitteilt, woher dieser Anfrage-Traffic stammt. Im Rahmen unserer Analyse werden die Hostnamen den jeweiligen Plattformen zugeordnet.

Feststellungen

Überprüfung der Verhältniswerte

Die neue Kennzahl wird in einer einfachen Tabelle angezeigt. Dabei wird die Zahl der gebündelten Anfragen an HTML-Seiten von Crawlern, die zu einer bestimmten Plattform gehören (User Agents), mit der Zahl der Anfragen von Clients, die über einen mit einer bestimmten Plattform verbundenen Hostnamen verwiesen werden, verglichen. Das auf diese Weise berechnete Verhältnis wird immer auf eine einzige Verweisanfrage normalisiert.

Die nachstehende Tabelle zeigt beispielhaft, dass für den Zeitraum vom 24. bis 30. Mai 2025 das Verhältnis von 75.000:1 bei Claude bis hin zu 0,25:1 bei DuckDuckGo reicht. Das heißt, dass die KI-Plattform Claude für jeden Verweis auf eine HTML-Seite 75.000 Anfragen an HTML-Seiten ausgelöst hat, während DuckDuckGo viermal so viele Verweise wie Crawling-Anfragen gesendet hat. (Allerdings enthält der Traffic, der auf die native Anwendung von Claude verweist, keinen „Referer:“-Header. Unserer Einschätzung nach gilt dies auch für den von anderen nativen Anwendungen ausgehenden Traffic. Da die Verweiszahlen nur Datenverkehr von webbasierten Tools dieser Anbieter abdecken, wurden bei diesen Berechnungen die jeweiligen Verhältniswerte möglicherweise überbewertet – in welchem Umfang, ist jedoch nicht klar.)

Aufgrund von Veränderungen in den Crawling-Mustern werden sich diese Verhältniswerte im Lauf der Zeit natürlich ebenfalls wandeln. Die obenstehende Tabelle zeigt auch die Veränderungen des Verhältnisses im Vergleich zur Vorwoche. Hier reichen die Veränderungen von einem Anstieg um 51 Prozent bei OpenAI bis zu einem Rückgang um 55 Prozent bei Google. Letzterer ist auf eine Abnahme des Crawling-Traffics von GoogleBot zwischen dem 23. und 27. Mai zurückzuführen. Das Wachstum bei OpenAI im Wochenvergleich erklärt sich durch eine Zunahme der Crawling-Aktivität von GPTBot ab dem 20. Mai, wie aus den untenstehenden Grafiken hervorgeht.

Der Data Explorer von Radar enthält eine Zeitreihenansicht dazu, wie sich diese Verhältniswerte im Lauf der Zeit verändern. Im nachfolgenden Beispiel ist dies für Baidu zu sehen. Die Zeitreihendaten sind auch über einen API-Endpunkt verfügbar.

Muster im Verweis-Traffic

Veränderungen und Trends in den zugrundeliegenden Aktivitäten sind in der zugehörigen Data Explorer-Ansicht sowie in den über API-Endpunkte verfügbaren Rohdaten (Zeitreihe, Zusammenfassung) zu erkennen. Beachten Sie, dass der Anteil des Verweis- und des Crawler-Datenverkehrs auf die in den Diagrammen enthaltenen Gruppen der „Referer“ und „Crawler“ bezogen ist und nicht auf den gesamten Cloudflare-Traffic.

In der folgenden „Referer“ (Verweis)-bezogenen Ansicht für die ersten vier Maiwochen 2025 ist beispielsweise zu sehen, dass der Verweis-Traffic von der Suchmaschinenplattform Google dominiert wird, wobei die Daten ein relativ einheitliches Tagesmuster offenbaren. Aufgrund des Prefetchings unter Anwendung von spekulativen Regeln wird Verweis-Traffic von der Autonomous System Number (AS15169) von Google hier ausdrücklich von der Analyse ausgenommen, da er nicht den aktiven Nutzerkonsum von Inhalten abbildet.

Eindeutige Tagesmuster sind ebenfalls bei den Anteilen der Verweis-Anfragen anderer Suchmaschinen zu erkennen, auch wenn der Anteil der Anfragen nur bei ein Bruchteil dessen beträgt, was sich bei Google messen lässt.

Im Mai war der Anteil des Traffics im Rahmen von KI-Plattformverweisen selbst in seiner Gesamtheit deutlich niedriger als der Anteil des Datenverkehrs, der durch Verweise von Suchmaschinen generiert wurde.

Veränderungen beim Crawler-Traffic

Wie bereits erwähnt, ist die Veränderung der Verhältniswerte im Zeitverlauf größtenteils auf Veränderungen bei den Crawling-Aktivitäten zurückzuführen. Diese Verschiebungen sind in den im Data Explorer einsehbaren Anteilen des Crawling-Traffics sowie in den über API-Endpunkte verfügbaren Rohdaten (Zeitreihen, Zusammenfassung) sichtbar. In der folgenden Crawler-bezogenen Ansicht wird für die ersten vier Maiwochen 2025 deutlich, dass der Anteil der Anfragen in Verbindung mit den Crawling-Aktivitäten von Google sowohl für den Googlebot als auch für den GoogleOther-Identifikator am 23. Mai deutlich abnimmt, bevor am 28. Mai eine Erholung einsetzt. Dieser Rückgang der Crawling-Aktivität wird durch ein ähnliches Muster bestätigt, das im HTTP-Anfrage-Traffic der AS15169 von Google im gleichen Zeitraum zu beobachten ist. Darüber hinaus hat es den Anschein, als sei der Crawler-Traffic von ClaudeBot von Anthropic am 26. und 27. Mai praktisch versiegt und als seien bei GPTBot von OpenAI in diesem Monat mehrmals über bestimmte Zeiträume keine Crawling-Aktivitäten verzeichnet worden.

Was heißt das für Content Provider?

Diese Verhältniswerte haben direkte Auswirkungen auf die Rentabilität von im Internet veröffentlichten Inhalten. Auch wenn sich diese Werte mit der Zeit verändern werden, besteht der Trend weiter darin, dass beim Vergleich zwischen Crawler- und Verweis-Anfragen Erstere überwiegen. Herkömmliche Suchindex-Crawler durchsuchen Inhalte für jeden übermittelten Besucher höchstens ein paar Mal. Traditionell hat die Verfügbarkeit einer Website für Crawler die Rentabilität dieses Umsatzmodells nicht verringert, sondern erhöht.

Die aktuellen von uns erhobenen Daten legen jedoch nahe, dass dies inzwischen nicht mehr der Fall ist. Die neuen Modelle konsumieren immer mehr Inhalte immer häufiger, während sie entweder die gleiche oder eine geringere Menge Traffic an den Urheber dieser Inhalte übermitteln.In den letzten Monaten haben wir neue Tools veröffentlicht, die Website-Betreibern dabei helfen sollen, die Kontrolle zurückzuerlangen. Sie können mit einem einzigen Klick die Arten von KI-Crawlern blockieren, die ihre Daten zu Trainingszwecken erfassen. In Kürze werden wir neue Möglichkeiten dafür vorstellen, den Wertaustausch für beide Seiten fair zu gestalten. Bis dahin lautet unsere Empfehlung an Urheber von Inhalten weiterhin, ihre bevorzugten Richtlinien für KI-Crawler zu überprüfen und konsequent durchzusetzen.

Wir schützen komplette Firmennetzwerke, helfen Kunden dabei, Internetanwendungen effizient zu erstellen, jede Website oder Internetanwendung zu beschleunigen, DDoS-Angriffe abzuwehren, Hacker in Schach zu halten, und unterstützen Sie bei Ihrer Umstellung auf Zero Trust.

Greifen Sie von einem beliebigen Gerät auf 1.1.1.1 zu und nutzen Sie unsere kostenlose App, die Ihr Internet schneller und sicherer macht.

Wenn Sie mehr über unsere Mission, das Internet besser zu machen, erfahren möchten, beginnen Sie hier. Sie möchten sich beruflich neu orientieren? Dann werfen Sie doch einen Blick auf unsere offenen Stellen.
RadarInternet-TrafficAIBots

Folgen auf X

David Belson|@dbelson
Cloudflare|@cloudflare

Verwandte Beiträge