Jetzt abonnieren, um Benachrichtigungen über neue Beiträge zu erhalten:

Ein KInderspiel: KI-Bots, Scraper und Crawler mit einem einzigen Klick blockieren

2024-07-03

Lesezeit: 7 Min.
Dieser Beitrag ist auch auf English, 繁體中文, Français, 日本語, 한국어, Português, Español, und 简体中文 verfügbar.

Um zu einem sicheren Internet für Content Creator beizutragen, haben wir gerade einen brandneuen „Easy Button“ eingeführt, mit dem sich sämtliche KI-Bots blockieren lassen. Die Lösung steht allen unseren Kunden zur Verfügung, auch denen mit Free-Tarif.

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

Weil sich generative KI großer Beliebtheit erfreut, ist auch die Nachfrage nach Inhalten zum Training der entsprechenden Modelle oder zur Ausführung von Inferenzaufgaben sprunghaft gestiegen. Einige KI-Unternehmen machen ihre Web Scraping-Bots zwar eindeutig als solche kenntlich, doch das gilt bei Weitem nicht für alle. So hat Google Berichten zufolge 60 Millionen US-Dollar jährlich für die Lizenzierung der nutzergenerierten Inhalte von Reddit gezahlt. Die Schauspielerin Scarlett Johansson behauptet, man habe ohne ihre Zustimmung ihre Stimme für die neue von OpenAI angebotene persönliche Assistentin benutzt. Jüngst wurde zudem der Firma Perplexity vorgeworfen, sich als reguläre Besucher ausgegeben zu haben, um Inhalte von Websites auszulesen. Großen Mengen an Originalinhalten waren noch nie so wertvoll wie heute.

Im vergangenen Jahr hat Cloudflare bekannt gegeben, dass Kunden jetzt KI-Bots, die sich gut verhalten, ganz einfach blockieren können. Diese Bots befolgen robots.txt und verwenden keine nicht lizenzierten Inhalte, um ihre Modelle zu trainieren oder Inferenzaufgaben für RAG-Anwendungen mit Website-Daten auszuführen. Obwohl diese KI-Bots die Regeln befolgen, entscheiden sich Cloudflare-Kunden mit überwältigender Mehrheit dafür, ihnen den Zutritt zu verwehren.

Die Kunden machen damit unmissverständlich klar, dass sie nicht wollen, dass KI-Bots ihre Websites besuchen – vor allem, wenn sie es auf unehrliche Weise tun. Zur Abhilfe haben wir eine brandneue Funktion eingeführt, mit der Sie alle KI-Bots mit nur einem Klick blockieren können. Diese Option steht allen Kunden zur Verfügung, auch denen mit Free-Tarif. Zur Aktivierung klicken Sie einfach unter dem Abschnitt „Security“ > „Bots“ im Cloudflare-Dashboard auf den Umschalter „AI Scrapers and Crawlers“.

Dieses Feature wird automatisch mit neuen Fingerprints von unerwünschten Bots aktualisiert, die unserer Einschätzung nach in großem Umfang Webinhalte zum Trainieren von Modellen auslesen. Um eine möglichst genaue Vorstellung von den Aktivitäten von KI-Crawlern zu bekommen, haben wir den Traffic in unserem Netzwerk untersucht.

Die heutige KI-Bot-Aktivität

Die folgende Grafik zeigt die gemessen an ihrem Anfragevolumen beliebtesten KI-Bots im Netzwerk von Cloudflare. Wir haben uns User Agents von gängigen KI-Crawlern angesehen und die Zahl ihrer Anfragen auf unserer Plattform für das verstrichene Jahr ermittelt:

Ein Blick auf die Anzahl der Anfragen an Cloudflare-Websites zeigt, dass Bytespider, Amazonbot, ClaudeBot und GPTBot die vier wichtigsten KI-Crawler sind. Bytespider wird von ByteDance betrieben, der chinesischen Inhaberin von TikTok. Berichten zufolge wird das Tool zum Sammeln von Trainingsdaten für die Large Language Models (LLM) des Unternehmens verwendet, einschließlich derjenigen, die den ChatGPT-Rivalen Doubao unterstützen. Amazonbot und ClaudeBot folgen hinsichtlich des Anfragevolumens hinter Bytespider. Amazonbot wird laut Berichten für die Indexierung von Inhalten eingesetzt, auf die Alexa zur Beantwortung von Fragen zurückgreift, und hat die zweitgrößte Zahl von Anfragen versandt. Bei ClaudeBot, dem Werkzeug, das zum Trainieren des Chat-Bots Claude benutzt wird, hat sich das Anfragevolumen in letzter Zeit erhöht.

Bytespider weist unter den von uns beobachteten führenden KI-Bots nicht nur die höchste Zahl von Anfragen auf, sondern steht auch in Bezug auf das Ausmaß der Crawling-Aktivitäten im Web und der Häufigkeit, mit der er blockiert wird, an erster Stelle. Knapp dahinter folgt sowohl im Hinblick auf das Crawlen als auch auf das Blockieren auf Rang zwei GPTBot. Das Tool wird von OpenAI verwaltet und sammelt Daten zum Training der LLM des Unternehmens, auf denen KI-gesteuerte Produkte wie ChatGPT aufbauen. In der folgenden Tabelle bezieht sich „Anteil an den Website-Aufrufen“ auf den Anteil der durch Cloudflare geschützten Websites, auf die der jeweilige KI-Bot zugegriffen hat.

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

KI-Bot

Anteil an den Website-Aufrufen

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40,40 %

GPTBot

35,46 %

ClaudeBot

11,17 %

ImagesiftBot

8,75 %

CCBot

2,14 %

ChatGPT-Nutzer

1,84 %

omgili

0,10 %

Diffbot

0,08 %

Claude-Web

0,04 %

PerplexityBot

0,01 %

Während unsere Analyse die beliebtesten Crawler in Bezug auf das Anfragevolumen und die Anzahl der aufgerufenen Websites identifiziert hat, wissen viele Kunden wahrscheinlich nichts von den beliebteren KI-Crawlern, die ihre Internetauftritte aktiv durchforsten. Unser Radar-Team hat eine Analyse der relevantesten robots.txt-Einträge der wichtigsten 10.000 Internet-Domains durchgeführt, um die KI-Bots zu ermitteln, mit denen am häufigsten Aktionen ausgeführt wurden. Dann wurde untersucht, wie oft diese Bots auf Websites anzutreffen waren, die durch Cloudflare geschützt werden.

Die folgende Grafik zeigt, dass Kunden bei den nicht zugelassenen Crawlern in robots.txt am häufigsten auf GPTBot, CCBot und Google verweisen, beliebte KI-Crawler wie Bytespider und ClaudeBot aber nicht ausdrücklich ausschließen.

Da das Internet nun mit diesen KI-Bots geradezu überschwemmt wird, hat uns sehr interessiert, wie die Website-Betreiber bislang darauf reagiert haben. Im Juni haben KI-Bots auf rund 39 Prozent der führenden Million von Websites zugegriffen, die Cloudflare nutzen. Doch nur bei 2,98 Prozent dieser Internetpräsenzen wurden Maßnahmen ergriffen, um solche Anfragen zu blockieren oder sie einem Test zu unterziehen. Und je höher im Ranking (also je beliebter) eine Website ist, desto wahrscheinlicher ist es, dass sie von KI-Bots ins Visier genommen wird – und entsprechend auch, dass sie solche Anfragen blockiert.

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

Top-N-Websites nach Anzahl der von Cloudflare registrierten Besucher

Zugriff durch KI-Bots

KI-Bots werden blockiert

10

80,0 %

40,0 %

100

63,0 %

16,0 %

1.000

53,2 %

8,8 %

10.000

47,99 %

8,92 %

100.000

44,53 %

6,36 %

1.000.000

38,73 %

2,98 %

Wir beobachten, dass Website-Betreiber den Zugang zu diesen KI-Crawlern mithilfe der Datei robots.txt vollständig blockieren. Voraussetzung dafür ist allerdings, dass der Bot-Betreiber robots.txt respektiert und das Protokoll RFC9309 einhält (womit sichergestellt wird, dass alle Nutzer-Varianten mit dem Produkt-Token übereinstimmen), um die Art des Bots bei dessen Besuch einer Website ehrlich kenntlich zu machen. Allerdings ist es für Bot-Betreiber ein Leichtes, User Agents zu ändern.

So spüren wir KI-Bots auf, die sich als echte Webbrowser ausgeben

Leider mussten wir feststellen, dass gefälschte User Agents eingesetzt werden, um Bots als echte Browser erscheinen zu lassen. Wir haben diese Aktivität über einen längeren Zeitraum verfolgt und können mit Stolz sagen, dass unser globales Machine Learning-Modell diese Aktivität immer als auf einen Bot zurückgehend erkannt hat – selbst wenn die Betreiber hinsichtlich ihres User Agents lügen.

Nehmen wir ein Beispiel für einen bestimmten Bot, bei dem von anderer Seite beobachtet wurde, dass dieser seine Aktivitäten verschleiert. Wir haben eine Analyse durchgeführt, um zu sehen, welchen Score unsere Machine-Learning-Modelle dem durch diesen Bot generierten Traffic zuweisen. Wie Sie sehen können, liegen in dem folgenden Diagramm alle Bot-Scores deutlich unter 30. Somit gehen unsere Modelle davon aus, dass diese Aktivität von einem Bot stammt.

Das Diagramm zeigt die Bewertung der Anfragen nach unserem neuesten Modell. Die „heißeren“ Farben bedeuten, dass mehr Anfragen unter diesen Bereich fallen. „Kühlere“ Farben zeigen an, dass das bei weniger Anfragen der Fall war. Die überwiegende Mehrheit der Anfragen ist auf die untersten beiden Bereiche entfallen, was signalisiert, dass das Cloudflare-Modell dem fragwürdigen Bot einen Score von 9 oder weniger zugewiesen hat. Die Änderungen des User Agent haben keine Auswirkungen auf den Score, da dies das allererste ist, was wir von den Bot-Betreibern erwarten.

Bei jedem Kunden, der bereits per WAF-Regel durchgesetzt hatte, dass Besucher mit einem Bot-Score unter 30 (unsere Empfehlung) einem Test unterzogen werden, wurde automatisch der gesamten KI-Bot-Traffic ohne weiteres Zutun seinerseits blockiert. Dasselbe wird für zukünftige KI-Bots gelten, die zum Verbergen ihrer Aktivitäten ähnliche Verfahren verwenden.

Wir nutzen die globalen Signale von Cloudflare zur Berechnung unseres Bot-Scores, der für KI-Bots wie den obigen anzeigt, dass wir ihn korrekt als wahrscheinlichen Bot identifizieren.

Wenn Kriminelle versuchen, eine Website in großem Umfang zu durchforsten, verwenden sie in der Regel Tools und Frameworks, die wir per Fingerprinting erfassen können. Für jeden von uns registrierten Fingerprint nutzen wir das Netzwerk von Cloudflare, das im Durchschnitt mehr als 57 Millionen Anfragen pro Sekunde verzeichnet, um zu verstehen, inwieweit wir diesem Fingerprint vertrauen sollten. Für unsere Modelle berechnen wir aus zahlreichen Signalen globale Gesamtwerte. Auf dieser Grundlage waren unsere Modelle in der Lage, Traffic von schwer fassbaren KI-Bots, wie in dem oben erwähnten Beispiel, korrekt als Bot-generiert zu kennzeichnen.

Dank dieser weltweit erfassten und gebündelten Daten können wir neue Scraping-Tools und deren Verhalten sofort erkennen, ohne den Bot manuell einem Fingerprinting zu unterziehen. Dadurch wird sichergestellt, dass Kunden immer vor den neuesten Wellen von Bot-Aktivitäten geschützt sind.

Wenn Sie einen Hinweis auf einen KI-Bot haben, der sich nicht ordnungsgemäß verhält, würden wir dem gern nachgehen. Zur Meldung solcher KI-Crawler stehen Ihnen zwei Möglichkeiten offen:

1. Enterprise-Bot-Management-Kunden können einen Bericht zu falsch-negativen Feedback-Loops über Bot-Analytics übermitteln, indem sie einfach das Traffic-Segment auswählen, bei dem sie das Fehlverhalten bemerkt haben:

2. Wir haben auch ein Reporting-Tool, eingerichtet, mit dem jeder Cloudflare-Kunde Berichte über einen KI-Bot einreichen kann, der ohne Erlaubnis Inhalte einer Website ausliest.

Es steht zu befürchten, dass einige KI-Unternehmen, die für den Zugriff auf Inhalte Regeln umgehen wollen, sich beharrlich anpassen werden, um die Bot-Erkennung zu vermeiden. Wir werden auch künftig wachsam sein, unsere KI-Regel für Scraper und Crawler um zusätzliche Bot-Sperren ergänzen und unsere Machine-Learning-Modelle weiterentwickeln, damit sich Content Creator auch in Zukunft im Internet voll entfalten und die komplette Kontrolle darüber behalten können, zum Training welcher Modelle und zur Ausführung welcher Inferenzen ihre Inhalte genutzt werden.

Wir schützen komplette Firmennetzwerke, helfen Kunden dabei, Internetanwendungen effizient zu erstellen, jede Website oder Internetanwendung zu beschleunigen, DDoS-Angriffe abzuwehren, Hacker in Schach zu halten, und unterstützen Sie bei Ihrer Umstellung auf Zero Trust.

Greifen Sie von einem beliebigen Gerät auf 1.1.1.1 zu und nutzen Sie unsere kostenlose App, die Ihr Internet schneller und sicherer macht.

Wenn Sie mehr über unsere Mission, das Internet besser zu machen, erfahren möchten, beginnen Sie hier. Sie möchten sich beruflich neu orientieren? Dann werfen Sie doch einen Blick auf unsere offenen Stellen.
Bots (DE)Bot Management (DE)AI Bots (DE)AIMachine LearningGenerative AI (DE)

Folgen auf X

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

Verwandte Beiträge

12. September 2024 um 14:15

Protecting APIs from abuse using sequence learning and variable order Markov chains

At Cloudflare, we protect customer APIs from abuse. This is no easy task, as abusive traffic can take different forms, from giant DDoS attacks to low-and-slow credential stuffing campaigns. We now address this challenge in a new way: by looking outside typical volumetric measures and using statistical machine learning to find important API client request sequences....