Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

Déclarez votre indépendance vis-à-vis de l'IA : bloquez les bots IA, les bots d'extraction et les bots d'indexation en un seul clic

2024-07-03

Lecture: 8 min.
Cet article est également disponible en English, en 繁體中文, en Deutsch, en 日本語, en 한국어, en Português, en Español et en 简体中文.

Pour contribuer à préserver la sûreté d'Internet pour les créateurs de contenus, nous venons d'inaugurer un nouveau « bouton magique » permettant de bloquer tous les bots IA. Il est disponible pour tous les clients, y compris les utilisateurs de notre offre gratuite.

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

La popularité de l'IA générative a entraîné une véritable explosion de la demande de contenus utilisés pour former des modèles ou exécuter des inférences ; et bien que certaines entreprises de développement d'IA identifient clairement leurs bots d'extraction de contenus web, toutes ne font pas preuve de transparence. Google aurait ainsi versé 60 millions de dollars par an pour obtenir une licence d'utilisation des contenus générés par les utilisateurs de Reddit, tandis que Scarlett Johansson a affirmé qu'OpenAI avait utilisé sa voix pour son nouvel assistant personnel sans son consentement. Plus récemment, Perplexity a été accusée d'usurper l'identité de visiteurs légitimes afin d'extraire des contenus de sites web. La valeur des contenus originaux en masse n'a jamais été aussi élevée.

L'année dernière, Cloudflare a annoncé la possibilité pour ses clients de bloquer facilement les bots IA présentant un comportement légitime. Ces bots se conforment aux instructions du fichier robots.txt et n'utilisent pas de contenus non autorisés pour former leurs modèles ou exécuter l'inférence pour les applications RAG utilisant des données de sites web. Bien que le comportement de ces bots IA soit légitime, les clients de Cloudflare choisissent majoritairement de les bloquer.

Nous entendons clairement que les clients ne souhaitent pas que des bots IA accèdent à leurs sites web, en particulier s'ils le font de manière malhonnête. Pour les aider, nous avons ajouté une nouvelle fonctionnalité permettant de bloquer tous les bots IA en un clic. Elle est disponible pour tous les clients, y compris les utilisateurs de l'offre gratuite. Pour l'activer, accédez simplement à la section Security > Bots (Sécurité > Bots) du tableau de bord Cloudflare, puis cliquez sur le sélecteur AI Scrapers and Crawlers (Bots IA d'extraction et d'indexation).

Cette fonctionnalité sera automatiquement mise à jour au fil du temps, à mesure que nous identifierons de nouvelles empreintes digitales correspondant à des bots illégitimes extrayant des contenus web à grande échelle aux fins de l'apprentissage de modèles. Pour nous assurer de disposer d'une compréhension globale de l'ensemble des activités des bots IA d'indexation, nous avons étudié le trafic sur l'ensemble de notre réseau.

Activité des bots IA aujourd'hui

Le graphique ci-dessous illustre les bots IA les plus populaires observés sur le réseau de Cloudflare, au regard du volume de requêtes. Nous avons examiné les agents utilisateurs des bots IA d'indexation les plus répandus et avons comptabilisé le nombre de requêtes reçues sur notre plateforme par ces agents utilisateurs IA au cours de l'année passée :

Lorsque nous examinons le nombre de requêtes adressées aux sites de Cloudflare, nous observons que Bytespider, Amazonbot, ClaudeBot et GPTBot sont les quatre principaux bots IA d'indexation. Exploité par ByteDance, la société chinoise propriétaire de TikTok, Bytespider serait utilisé pour collecter des données d'apprentissage utilisées par les grands modèles de langage (LLM) de l'entreprise, notamment celles consommées par Doubao, le rival de ChatGPT développé par ByteDance. Amazonbot et ClaudeBot suivent ByteSpider en termes de volume de requêtes. Amazonbot, censément utilisé aux fins de l'indexation des contenus des réponses aux questions d'Alexa, a transmis le deuxième nombre le plus important de requêtes, tandis que le volume de requêtes transmis par ClaudeBot, utilisé pour former le chatbot Claude, a récemment augmenté.

Parmi les principaux bots IA que nous observons, Bytespider arrive en tête non seulement en termes de nombre de requêtes, mais également au regard de l'étendue de l'exploration des propriétés Internet et de la fréquence à laquelle il est bloqué. Il est suivi de près par GPTbot, qui occupe la deuxième place du classement au regard de l'ampleur de l'indexation et de la fréquence de blocage. GPTBot, géré par OpenAI, collecte des données d'apprentissage pour les LLM de l'entreprise, sur lesquels reposent les produits basés sur l'IA tels que ChatGPT. Dans le tableau ci-dessous, l'indication « Part de sites web consultés » désigne la proportion de sites web protégés par Cloudflare et consultés par le bot IA correspondant.

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

Bot IA

Part de sites web consultés

Bytepider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40,40 %

GPTBbot

35,46 %

ClaudeBot

11,17 %

ImageifBot

8,75 %

CCCot

2,14 %

ChatGPT-User

1,84 %

omgili

0,10 %

Diffbot

0,08 %

Claude-web

0,04 %

PerplexityBot

0,01 %

Bien que notre analyse ait permis d'identifier les bots d'indexation les plus répandus au regard du volume de requêtes et du nombre de propriétés Internet consultées, de nombreux clients ne connaissent probablement pas les bots IA d'indexation les plus courants qui explorent activement leurs sites. L'équipe de Cloudflare Radar a effectué une analyse des principales entrées du fichier robots.txt des 10 000 principaux domaines Internet afin d'identifier les bots IA les plus couramment utilisés, puis a examiné la fréquence à laquelle nous avons observé ces bots sur les sites protégés par Cloudflare.

Dans le graphique ci-dessous, qui examine les bots d'indexation interdits pour ces sites, nous constatons que les clients ajoutent le plus fréquemment GPTBot, CCBot et Google au fichier robots.txt, mais qu'ils n'interdisent pas spécifiquement des bots d'indexation répandus tels que Bytespider et ClaudeBot.

Internet étant désormais inondé de ces bots IA, nous étions curieux de découvrir comment les opérateurs de sites web avaient déjà réagi. En juin, des bots IA ont accédé à environ 39 % du premier million de propriétés Internet utilisant Cloudflare ; cependant, 2,98 % seulement de ces propriétés ont pris des dispositions pour bloquer ou vérifier ces requêtes. Par ailleurs, plus le classement d'une propriété Internet est élevé (c'est-à-dire, plus la propriété est connue), plus cette propriété est susceptible d'être la cible de bots IA et, par conséquent, plus elle est susceptible de bloquer les requêtes correspondantes.

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

N premières propriétés Internet au regard du nombre de visiteurs observés par Cloudflare

% d'accès par des bots IA

% de blocage de bots IA

10

80,0 %

40,0 %

100

63,0 %

16,0 %

1 000

53,2 %

8,8 %

10 000

47,99 %

8,92 %

100 000

44,53 %

6,36 %

1 000 000

38,73 %

2,98 %

Nous voyons des opérateurs web interdire complètement l'accès à ces bots IA d'indexation avec le fichier robots.txt. Cependant, ces blocages dépendent de la volonté des opérateurs de bots à respecter les instructions du fichier robots.txt, ainsi que de leur conformité à RFC9309 (qui assure que les variations propres à l'utilisateur par rapport à l'ensemble des utilisateurs correspondant au jeton du produit). Ces dispositions permettent de les identifier honnêtement lorsqu'ils accèdent à une propriété Internet ; toutefois, les agents utilisateurs peuvent être facilement modifiés par les opérateurs de bots.

Comment nous identifions les bots IA qui se font passer pour des navigateurs web légitimes

Malheureusement, nous avons observé que certains opérateurs de bots tentent de faire passer ces derniers pour des navigateurs légitimes, en utilisant un agent utilisateur usurpé. Nous avons surveillé cette activité au fil du temps, et nous sommes fiers d'annoncer que notre modèle mondial d'apprentissage automatique a toujours identifié cette activité comme étant liée à un bot, même lorsque les opérateurs mentaient au sujet de leur agent utilisateur.

Prenons l'exemple d'un bot spécifique, identifié par d'autres comme dissimulant son activité. Nous avons réalisé une analyse afin de déterminer de quelle manière nos modèles d'apprentissage automatique évaluaient le trafic provenant de ce bot. Dans le diagramme ci-dessous, vous pouvez voir que tous les scores de bot sont nettement inférieurs à 30, indiquant que notre évaluation considère que cette activité est susceptible d'être liée à un bot.

Le diagramme reflète l'évaluation des requêtes selon notre modèle le plus récent, dans lequel les couleurs chaudes signalent un nombre élevé de requêtes correspondant à cette bande et les couleurs froides signalent un nombre peu élevé de requêtes. Nous pouvons constater que l’immense majorité des requêtes correspond aux deux bandes inférieures, démontrant que le modèle de Cloudflare a attribué au bot incriminé un score de 9 ou moins. Les modifications de l'agent utilisateur n'ont aucune incidence sur l'évaluation, car il s'agit, selon nous, de la toute première disposition que prennent les opérateurs de bots.

Les clients utilisant d'une règle de pare-feu WAF imposant une vérification aux visiteurs présentant un score de bot inférieur à 30 (ce qui constitue notre recommandation) ont automatiquement bloqué l'ensemble du trafic associé à ce bot IA, sans autre action de leur part. Cela s'appliquera également aux futurs bots IA utilisant des techniques similaires pour dissimuler leur activité.

Nous utilisons les signaux globaux de Cloudflare pour calculer notre score de bot ; pour les bots IA tels que ceux décrits ci-dessus, ce score reflète notre capacité à les identifier correctement et à les évaluer comme « bot probable ».

Lorsque des acteurs malveillants tentent d'indexer des sites web à grande échelle, ils utilisent généralement des outils et des infrastructures que nous sommes en mesure d'identifier. Chaque fois que nous observons une empreinte digitale, nous utilisons le réseau de Cloudflare, qui achemine en moyenne plus de 57 millions de requêtes par seconde, pour évaluer la confiance que nous devons accorder à cette empreinte digitale. Pour alimenter nos modèles, nous calculons des agrégats mondiaux en prenant en compte une multitude de signaux. Sur la base de ces signaux, nos modèles ont été en mesure d'identifier correctement le trafic provenant de bots IA dissimulés, tels que celui décrit dans l'exemple ci-dessus, comme provenant de bots.

Ces données mondialement agrégées nous permettent de détecter immédiatement les nouveaux outils d'extraction de contenus et leur comportement, sans toutefois devoir identifier manuellement les empreintes digitales de bots. Nous pouvons ainsi garantir que nos clients restent protégés contre les nouvelles vagues d'activités liées aux bots.

Si vous avez connaissance d'un bot IA qui se comporte de manière malveillante, nous serons ravis de mener l'enquête. Deux options s'offrent à vous pour signaler les bots d'indexation de contenu dont le comportement n'est pas légitime :

1. Les clients utilisateurs du service de gestion des bots de l'offre Enterprise peuvent transmettre un rapport de boucle de collecte d'informations via le service Bot Analytics en sélectionnant simplement le segment de trafic dans lequel ils ont observé le mauvais comportement :

2. Nous avons également mis en place un outil de création de rapports permettant à tout client de Cloudflare de signaler la présence d'un bot IA extrayant des contenus d'un site web sans autorisation.

Nous craignons que certaines entreprises de développement d'IA désireuses de contourner les règles pour accéder à des contenus persistent à s'adapter afin d'échapper à notre solution de détection de bots. Nous continuerons à surveiller la situation ; nous ajouterons d'autres mécanismes de blocages de bots à notre règle AI Scrapers et Crawlers et nous ferons évoluer nos modèles d'apprentissage automatique, afin de veiller à ce qu'Internet demeure un espace dans lequel les créateurs de contenus peuvent prospérer et conserver un contrôle total sur les modèles utilisant leurs contenus à des fins d'apprentissage ou d'inférence.

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
Bots (FR)Bot Management (FR)AI Bots (FR)AIMachine LearningGenerative AI

Suivre sur X

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

Publications associées

12 septembre 2024 à 14:15

Protecting APIs from abuse using sequence learning and variable order Markov chains

At Cloudflare, we protect customer APIs from abuse. This is no easy task, as abusive traffic can take different forms, from giant DDoS attacks to low-and-slow credential stuffing campaigns. We now address this challenge in a new way: by looking outside typical volumetric measures and using statistical machine learning to find important API client request sequences....