Abonnez-vous pour recevoir des notifications sur les nouveaux articles :

Commencez à auditer et à contrôler les modèles IA qui accèdent à votre contenu

2024-09-23

Lecture: 9 min.
Cet article est également disponible en English, en 繁體中文, en Deutsch, en 日本語, en 한국어, en Español et en 简体中文.

Les propriétaires de sites n'avaient pas la possibilité de déterminer de quelle manière les services d'IA utilisaient leur contenu à des fins d'apprentissage ou autres. Cloudflare lance aujourd'hui une suite d'outils permettant aux propriétaires de sites, aux créateurs et aux éditeurs de reprendre facilement le contrôle de la manière dont leur contenu est mis à la disposition des bots et robots d'indexation liés à l'IA. Tous les clients de Cloudflare peuvent désormais auditer et contrôler la manière dont les modèles IA accèdent au contenu de leur site.

Ce lancement propose d'emblée une vue présentant des données analytiques détaillées sur les services d'IA qui explorent votre site et les contenus spécifiques auxquels ils accèdent. Les clients peuvent examiner l'activité par fournisseur d'IA et par type de bot, ainsi qu'en fonction des sections les plus populaires de leur site. Ces données sont disponibles pour tous les sites hébergés sur Cloudflare et ne nécessitent aucune configuration. Nous espérons que ce niveau de visibilité inédit incitera les équipes à prendre une décision concernant leur exposition aux robots d'indexation d'IA. Pour leur laisser davantage de temps pour prendre cette décision, Cloudflare propose désormais une option en un clic, accessible depuis le tableau de bord, permettant d'interdire immédiatement à tout bot d'indexation d'accéder à un site donné. Les équipes peuvent ensuite profiter de cette « pause » pour décider si elles souhaitent autoriser certains fournisseurs d'IA ou types de bots à accéder à leur contenu. Une fois cette décision prise, les administrateurs peuvent appliquer de nouveaux filtres, accessibles depuis le tableau de bord Cloudflare, pour mettre ces politiques en œuvre en quelques clics seulement.

Certains clients ont d'ores et déjà pris la décision de négocier directement des accords avec des entreprises de développement d'IA. Ces contrats incluent fréquemment des clauses relatives à la fréquence de l'exploration, ainsi qu'aux types de contenus accessibles. Nous voulons que les éditeurs aient à leur disposition les outils nécessaires pour mesurer la mise en œuvre de ces accords.  Suite à l'annonce faite ce jour, les clients de Cloudflare peuvent désormais générer, en un clic seulement, un rapport qu'ils peuvent ensuite utiliser pour auditer les activités autorisées dans le cadre de ces contrats.

Nous pensons également que les sites, quelle que soit leur taille, devraient pouvoir déterminer de quelle manière ils souhaitent être rémunérés pour l'utilisation de leur contenu par les modèles d'IA. L'annonce faite ce jour présente un aperçu d'une nouvelle fonctionnalité de monétisation proposée par Cloudflare, qui fournira aux propriétaires de sites les outils indispensables pour définir les prix, contrôler l'accès et générer de la valeur en échange de l'exploration de leur contenu.

Quel est le problème ?

Jusqu'à récemment, les bots et les robots d'indexation sur Internet pouvaient majoritairement être répartis dans deux catégories distinctes : les bons et les mauvais. Les bots légitimes, tels que les robots d'indexation des moteurs de recherche, aidaient les internautes à découvrir votre site et généraient du trafic vers celui-ci. Les bots malveillants tentaient de mettre votre site hors service, de contourner les files d'attente et devancer vos clients ou d'extraire des données concurrentielles. Nous avons développé la solution de gestion des bots de Cloudflare afin de vous permettre de distinguer ces deux grandes catégories et de les autoriser ou de les bloquer.

L'essor des grands modèles linguistiques (LLM) basés sur l'IA et d'autres outils génératifs a engendré une troisième catégorie, plus trouble. Contrairement aux bots malveillants, les robots d'indexation associés à ces plateformes n'essaient pas activement de mettre votre site hors ligne, ni de perturber l'activité de vos clients. Ils n'essaient pas non plus de dérober des données sensibles ; ils cherchent simplement à explorer les contenus déjà publics proposés sur votre site.

Cependant, contrairement aux bots utiles, ces robots d'indexation liés à l'IA ne génèrent pas forcément du trafic vers votre site. Les bots d'extraction de données IA explorent le contenu de votre site afin de former de nouveaux LLM. Votre contenu est ensuite placé dans une sorte de mixeur, mélangé à d'autres contenus, puis utilisé pour répondre aux questions des utilisateurs, toutefois sans que le contenu soit attribué à votre site ou que les utilisateurs aient besoin de consulter ce dernier. Un autre type de robot d'indexation, les robots d'indexation de moteurs de recherche IA, analysent votre contenu et tentent de le citer lorsqu'il répond à la recherche d'un utilisateur. L’inconvénient est que ces utilisateurs peuvent simplement se contenter de rester à l’intérieur de cette interface, plutôt que de consulter votre site, car une réponse est assemblée sur la page qui leur est présentée.

Cette complexité confronte les propriétaires de sites à la nécessité de prendre une décision difficile. En effet, l'échange de valeur n'est pas clair, et les propriétaires de sites sont désavantagés tandis qu'ils essaient de rattraper le retard pris sur les entreprises de développement d'IA. De nombreux sites ont autorisé ces robots d'indexation IA à explorer leur contenu, car ils se présentaient, pour la plupart, comme des bots « légitimes ». Cependant, le résultat se traduisait par une réduction du trafic vers les sites, dont le contenu était reformulé dans des réponses écrites par l'IA.

Nous pensons que cela constitue un risque pour un Internet ouvert. S'ils n'ont pas la possibilité de contrôler les pratiques d'exploration et de générer de la valeur, les propriétaires de sites se décourageront de lancer ou de gérer des propriétés Internet. Les créateurs dissimuleront davantage leur contenu derrière des services payants, et les plus grands éditeurs concluront des accords directs. Les fournisseurs de modèles d'IA, quant à eux, auront des difficultés à localiser et accéder à la longue traîne de contenu de qualité proposée sur des sites plus modestes.

Aucune des deux parties ne dispose des outils nécessaires pour établir un échange sain et transparent d'autorisations et de valeur. À compter d'aujourd'hui, Cloudflare offre aux propriétaires de sites les services dont ils ont besoin pour commencer à remédier à cette situation. Nous avons détaillé une série d’étapes que nous invitons tous nos clients à suivre pour se lancer.

Étape 1 : comprendre comment les modèles d'IA utilisent votre site

Tous les sites hébergés sur Cloudflare ont désormais accès à une nouvelle vue présentant des analyses de données qui récapitulent le comportement d'indexation des services d'IA populaires et connus. Vous pouvez commencer à examiner ces informations afin de comprendre l'exploration de votre contenu par l'IA ; pour cela, sélectionnez un site sur le tableau de bord, puis accédez à l'onglet AI Audit dans la barre de navigation gauche.

BLOG-2509 2

Lorsque les fournisseurs de modèles d'IA accèdent au contenu de votre site, ils utilisent des outils automatisés appelés « bots » ou « robots d'indexation » pour explorer les pages. Le bot demande le contenu de votre page, capture la réponse, puis la stocke en l'intégrant à un futur ensemble d'apprentissage de données ou s'en souvient en vue de l'intégrer ultérieurement aux résultats d'un moteur de recherche IA.

Ces bots s'identifient souvent sur votre site (et sur le réseau de Cloudflare) en incluant, dans leur requête, un en-tête HTTP appelé User Agent(agent utilisateur). Dans certains cas, toutefois, un bot associé à l'un de ces services d'IA ne transmet pas l'en-tête, et Cloudflare s'appuie plutôt sur d'autres données heuristiques telles que l'adresse IP ou le comportement du bot pour l'identifier. Lorsque le bot s'identifie, l'en-tête contient une chaîne de texte indiquant le nom du bot. Par exemple, Anthropic explore parfois des sites sur Internet à l'aide d'un bot appelé ClaudeBot. Lorsque ce service demande le contenu provenant d'une page de votre site hébergé sur Cloudflare, Cloudflare enregistre l'en-tête User Agent sous le nom ClaudeBot.

BLOG-2509 3

Cloudflare examine les journaux issus des consultations de votre site et recherche les en-têtes User Agent correspondant à des bots et des robots d'indexation connus. Nous récapitulons l'activité des différents robots d'indexation et vous proposons également des filtres qui vous permettent d'examiner uniquement les activités de plateformes d'IA spécifiques. De nombreuses entreprises de développement d'IA dépendent d'une multitude de robots d'indexation, qu'elles utilisent à des fins distinctes. Lorsque OpenAI explore des sites aux fins de l'extraction de données, l'entreprise utilise le bot GPTBot, mais lorsqu'elle indexe des sites pour son nouveau moteur de recherche IA, elle utilise le bot OAI-SearchBot.

Et ces différences sont importantes. L'exploration réalisée par différents types de bots peut avoir une incidence sur le trafic affluant vers votre site ou sur l'attribution de votre contenu. Les moteurs de recherche IA incluent souvent des liens vers des sites dans leurs réponses, et peuvent ainsi potentiellement rediriger les visiteurs vers votre destination. Dans ce cas, vous pouvez envisager d'accepter l'exploration de votre propriété Internet par ces types de bots. L'unique finalité des bots d'extraction de données d'IA, en revanche, est de lire la plus grande partie possible d'Internet afin de former de futurs modèles ou d'améliorer les modèles existants.

Nous pensons que vous méritez de savoir pourquoi un bot indexe votre site, mais également à quel moment et à quelle fréquence ces explorations ont lieu. Le lancement effectué aujourd'hui propose un filtre permettant d'examiner l'activité des bots en fonction de la catégorie à laquelle ils appartiennent – par exemple, AI Data Scraper (bot d'extraction de données IA), AI Search Crawler (robot d'indexation IA) ou Archiver (bot d'archivage).

BLOG-2509 4

Avec ces données, vous pouvez commencer à analyser de quelle manière les modèles d'IA accèdent à votre site. Il est possible que vous vous sentiez désemparé face à ces informations, surtout si votre équipe n'a pas encore eu le temps de décider de quelle manière vous souhaitez gérer l'exploration de votre contenu par l'IA. Si vous ne savez pas vraiment comment réagir, passez à l'étape 2.

Étape 2 : accordez-vous une pause pour décider de ce que vous souhaitez faire ensuite

Nous avons échangé avec plusieurs entreprises qui sont conscientes que leurs sites sont des destinations privilégiées pour les robots d'indexation d'IA, mais ne savent pas encore comment réagir. Ces équipes ont besoin de « faire pouce » afin de prendre une décision bien informée concernant la manière dont elles mettent leurs données à la disposition de ces services.

Cloudflare vous propose dès maintenant un bouton permettant de faire une pause. Quelle que soit l'offre souscrite, tous les clients de Cloudflare peuvent choisir de bloquer l'ensemble des bots et robots d'indexation IA, afin de s'accorder un moment de réflexion pendant qu'ils décident de ce qu'ils souhaitent autoriser.

Pour activer cette option, accédez à la section Bots sur l'onglet Security (Sécurité) du tableau de bord de Cloudflare. Cliquez sur le lien bleu affiché dans le coin supérieur droit pour configurer la façon dont le proxy de Cloudflare gère le trafic lié aux bots. Ensuite, mettez le bouton du volet « Block AI Scrapers and Crawlers » (Bloquer les bots d'extraction et les robots d'indexation IA) dans la position « On ».

BLOG-2509 5

Cette option en un clic empêche les bots et les robots d'indexation connus liés à l'IA d'accéder à votre site sur la base d'une liste gérée par Cloudflare. Une fois ce blocage activé, votre équipe et vous pouvez prendre une décision moins précipitée concernant la suite des événements relatifs à votre contenu.

Étape 3 : contrôlez les bots que vous souhaitez autoriser

Le bouton de mise en pause offre à votre équipe du temps pour décider de la relation qu'elle souhaite autoriser entre les bots d'indexation et votre contenu. Lorsque votre équipe aura pris une décision, vous pourrez compter sur le réseau de Cloudflare pour appliquer cette politique.

Si cette décision est « nous n'allons autoriser aucune indexation », vous pouvez laisser le bouton de blocage mentionné ci-dessus dans la position « On ». Si vous souhaitez autoriser une exploration sélective, le lancement effectué aujourd'hui vous offre les options nécessaires pour autoriser certains types de bots, ou uniquement les bots de certains fournisseurs, à accéder à votre contenu.

Pour certaines équipes, la décision consistera à autoriser les bots associés aux moteurs de recherche IA à explorer leurs propriétés Internet, car ces outils peuvent encore générer du trafic vers leur site. D'autres entreprises pourront signer des accords avec un fournisseur de modèles spécifique, et pourront alors autoriser n'importe quel type de bot de ce fournisseur à accéder à leur contenu. Les clients peuvent désormais accéder à la section WAF du tableau de bord de Cloudflare pour appliquer ces types de politiques.

BLOG-2509 6

Les administrateurs peuvent également créer des règles qui, par exemple, bloqueront tous les bots IA, à l'exception de ceux d'une plateforme spécifique. Les équipes peuvent déployer ces types de filtres si elles sont méfiantes à l'égard de la plupart des plateformes d'IA, mais acceptent un fournisseur de modèles d'IA et ses politiques. Ces types de règles peuvent également être utilisés pour mettre en œuvre des contrats conformément auxquels un propriétaire de site autorise un fournisseur particulier à explorer son site. L'administrateur du site devra alors créer une règle permettant de bloquer tous les types de bots liés à l'IA, puis ajouter une exception autorisant les bots spécifiques de l'entreprise partenaire de développement d'IA.

BLOG-2509 7

Nous recommandons également aux clients d'envisager de mettre à jour leurs conditions d'utilisation afin de couvrir ce nouveau scénario d'utilisation, en plus d'appliquer ces nouveaux filtres. Nous avons également documenté les mesures que nous invitons les bots et robots d'indexation « citoyens » à respecter au regard des fichiers robots.txt. Dans le prolongement de ces bonnes pratiques, nous ajoutons à cette documentation une nouvelle section, dans laquelle nous fournissons un exemple de conditions d'utilisation. Les propriétaires de sites peuvent envisager d'utiliser celles-ci afin d'établir que l'exploration par l'IA doit se dérouler conformément aux politiques définies dans votre fichier robots.txt.

Étape 4 : auditez vos accords d'exploration existants

Un nombre croissant de sites signent des accords directement avec les fournisseurs de modèles, afin d'autoriser la consommation de leurs contenus en échange d'un paiement. Bon nombre de ces contrats comportent des dispositions qui déterminent la fréquence d'indexation de certaines sections de sites, voir de sites entiers. L'onglet AI Audit de Cloudflare vous fournit les outils nécessaires pour évaluer ces types de contrats.

Le tableau affiché en bas de l'outil AI Audit dresse maintenant la liste des contenus les plus populaires de votre site, classés par nombre d'explorations pendant la période correspondant au filtre défini en haut de la page. Vous pouvez cliquer sur le bouton Export to CSV (Exporter au format CSV) pour télécharger rapidement un fichier contenant les détails présentés ici, que vous pouvez utiliser pour discuter d'éventuels écarts avec la plateforme d'IA que vous avez autorisée à accéder à votre contenu.

BLOG-2509 8

Aujourd'hui, les données dont vous disposez représentent les indicateurs essentiels dont nos clients nous ont parlé dans le cadre de ce type d'accords : les requêtes adressées à certaines pages et les requêtes adressées à l'ensemble du site.

Étape 5 : préparez votre site afin de générer de la valeur à partir de l'exploration par l'IA

Toutes les sociétés ne disposent pas du temps ou des contacts nécessaires pour négocier des accords avec des entreprises de développement d'IA. Jusqu'à présent, seuls les plus grands éditeurs présents sur Internet disposent des ressources nécessaires pour établir ces types de clauses et être rémunérés en échange de leur contenu.

Tous les autres se sont fondamentalement confrontés à deux possibilités concernant le traitement de leurs données : bloquer l'ensemble des explorations ou autoriser un accès illimité à leur contenu. Les lancements de ce jour offrent aux créateurs de contenu davantage de visibilité et de contrôle que ces deux options ; toutefois, la longue traîne des sites sur Internet ne dispose toujours pas d'un accès à la monétisation de ses contenus.

Nous considérons que les sites de toutes les tailles devraient bénéficier d'une juste rémunération pour l'utilisation de leur contenu. Cloudflare prévoit de lancer, sur son tableau de bord, un nouveau composant qui offrira des fonctionnalités autres que le simple blocage et l'analyse des indexations. Les propriétaires de sites auront la possibilité de fixer un prix pour leur site ou des sections de leur site, puis de facturer les fournisseurs de modèles en fonction de leurs explorations et du prix qu'ils ont défini. Nous nous occuperons du reste, afin que vous puissiez vous concentrer sur la création de contenus captivants pour votre public.

Le moyen le plus rapide de vous préparer à générer de la valeur avec ce nouveau composant consiste à vous assurer que vos sites utilisent le réseau de Cloudflare. Nous avons l'intention d'inviter des sites à participer à la version bêta en fonction de la date à laquelle ils ont rejoint Cloudflare. Vous souhaitez être informé de la disponibilité de ce nouveau composant ? Faites-le-nous savoir ici.

BLOG-2509 9

Nous protégeons des réseaux d'entreprise entiers, aidons nos clients à développer efficacement des applications à l'échelle d'Internet, accélérons tous les sites web ou applications Internet, repoussons les attaques DDoS, tenons les pirates informatiques à distance et pouvons vous accompagner dans votre parcours d'adoption de l'architecture Zero Trust.

Accédez à 1.1.1.1 depuis n'importe quel appareil pour commencer à utiliser notre application gratuite, qui rend votre navigation Internet plus rapide et plus sûre.

Pour en apprendre davantage sur notre mission, à savoir contribuer à bâtir un Internet meilleur, cliquez ici. Si vous cherchez de nouvelles perspectives professionnelles, consultez nos postes vacants.
Birthday Week (FR)AI Bots (FR)AILLM (FR)

Suivre sur X

Cloudflare|@cloudflare

Publications associées

27 septembre 2024 à 13:00

Our container platform is in production. It has GPUs. Here’s an early look

We’ve been working on something new — a platform for running containers across Cloudflare’s network. We already use it in production, for AI inference and more. Today we want to share an early look at how it’s built, why we built it, and how we use it ourselves. ...