Registreer om nieuwe berichten te ontvangen:

Meer crawlen, minder doorverwijzen: inzicht in de impact van AI op contentproviders

2025-07-01

7 minuten leestijd
Deze post is ook beschikbaar in het English, Deutsch, 日本語 en Français.

Contentuitgevers waren blij met de crawlers en bots van zoekmachines, omdat die verkeer naar hun websites doorstuurden. De crawlers zien wat er op de site is gepubliceerd en tonen dat materiaal aan de gebruikers die daarnaar op zoek zijn. Website-eigenaren konden hun materiaal verkopen, omdat gebruikers nog steeds door moesten klikken naar de pagina om meer dan alleen een korte titel te zien.

Bots met kunstmatige intelligentie, ofwel AI-bots, crawlen ook de content van een website, maar dan met een heel ander leveringsmodel. Deze Large Language Models (LLM's) doen hun best om het web te lezen om een systeem te trainen dat de content voor de gebruiker opnieuw kan verpakken, zonder dat de gebruiker ooit naar de originele publicatie hoeft te gaan.

De AI-applicaties proberen de content nog steeds te vermelden, maar we hebben gemerkt dat relatief weinig gebruikers daadwerkelijk doorklikken vergeleken met hoe vaak de AI-bot een bepaalde website afschraapt. We hebben deze uitdaging in kleinere settings besproken en we publiceren vandaag onze bevindingen als een nieuwe statistiek op de AI Insights-pagina van Cloudflare Radar.

Mensen die naar Cloudflare Radar gaan, kunnen nu zien hoe vaak een bepaald AI-model verkeer naar een website doorstuurt vergeleken met hoe vaak het model die website crawlt. We delen deze analyse met een breed publiek, zodat website-eigenaren over betere informatie beschikken en beter kunnen beslissen welke AI-bots ze willen toestaan welke ze moeten blokkeren. Bovendien kunnen gebruikers zo beter begrijpen hoe het gebruik van AI in het algemeen het internetverkeer beïnvloedt.

Hoe werkt deze meting?

HTML-pagina's bevatten waarschijnlijk de meest waardevolle content voor deze crawlers. Daarom worden de weergegeven ratio's berekend door het totale aantal verzoeken van relevante gebruikersagenten, gekoppeld aan een bepaald zoek- of AI-platform met het antwoord Content-type: text/html, te delen door het totale aantal verzoeken voor HTML-inhoud waarbij de Referer-header een hostnaam bevatte die aan een bepaald zoek- of AI-platform was gekoppeld.

De onderstaande diagrammen illustreren twee veelvoorkomende crawlscenario's en laten zien dat bedrijven verschillende user agents kunnen gebruiken, afhankelijk van het doel van de crawler. De bovenste afbeelding vertegenwoordigt een eenvoudige transactie waarbij het voorbeeld-AI-platform inhoud opvraagt voor het trainen van een LLM en zichzelf voorstelt als AIBot. De onderste afbeelding toont een scenario waarin het voorbeeld-AI-platform content opvraagt om een verzoek van een gebruiker te verwerken, bijvoorbeeld vluchtinformatie. In dit geval stelt het zich voor als AIBot-User. Voor onze analyse wordt het aanvraagverkeer van beide gebruikersagenten onder één platformnaam samengevoegd. 

Wanneer een gebruiker op een link op een website of applicatie klikt, stuurt de client vaak een Referer: header als onderdeel van de aanvraag naar de doelwebsite. In het onderstaande diagram heeft het voorbeeld-AI-platform content geretourneerd met links naar externe websites als reactie op een gebruikersinteractie. Wanneer de gebruiker op een link klikt, wordt er een aanvraag gedaan aan de contentprovider met ai.example.com in de Referer: header, zodat de provider weet waar het verkeer vandaan kwam. Ten behoeve van onze analyse worden hostnamen aan hun respectievelijke platforms gekoppeld.

Observaties

De vergelijking

De nieuwe metriek wordt gepresenteerd als een eenvoudige tabel, waarin het aantal samengevoegde HTML-paginaverzoeken van crawlers (user agents) die aan een bepaald platform zijn gekoppeld, wordt vergeleken met het aantal HTML-paginaverzoeken van clients die worden doorverwezen door een hostnaam die aan een bepaald platform is gekoppeld. De berekende verhouding wordt altijd genormaliseerd naar één verwijzingsverzoek.

De onderstaande tabel laat als voorbeeld zien dat de verhoudingen voor de periode van 19 tot en met 26 juni 2025 variëren van Anthropic's 70.900:1 tot Mistral's 0,1:1. Dit betekent dat AI-platform Claude van Anthropic bijna 71.000 HTML-paginaverzoeken deed voor elke HTML-paginaverwijzing, terwijl Mistral tien keer zoveel verwijzingen als crawlverzoeken verstuurde. (Het verkeer dat door Claude's native app wordt doorverwezen, bevat echter geen Referer: header, en wij denken dat hetzelfde geldt voor het verkeer dat door andere native apps wordt gegenereerd. Aangezien de verwijzingsaantallen alleen het verkeer van de webgebaseerde tools van deze providers omvatten, kunnen deze berekeningen de respectievelijke verhoudingen overschatten, maar het is niet duidelijk met hoeveel.)

Deze verhoudingen zullen uiteraard in de loop van de tijd veranderen deels als gevolg van nieuwe crawlpatronen. De bovenstaande tabel geeft ook de veranderingen in de verhouding weer ten opzichte van de voorgaande periode, met veranderingen variërend van een stijging van meer dan 6% voor DuckDuckGo en Yandex tot een daling van 19,4% bij Google. Deze daling van de verhouding van Google is gerelateerd aan een waargenomen daling van het crawlverkeer van GoogleBot vanaf 24 juni, terwijl de verandering bij Yandex verband houdt met een waargenomen toename van de YandexBot-crawlactiviteit die begon op 21 juni, zoals te zien is in de onderstaande grafieken.

Radar's Data Explorer omvat een tijdreeksweergave van hoe deze verhoudingen in de loop der tijd veranderen, zoals in het onderstaande Baidu-voorbeeld. De tijdreeksgegevens zijn ook beschikbaarvia een API-eindpunt.

Verwijzingsverkeerspatronen

Alle veranderingen en trends in de onderliggende activiteit zijn te zien in de bijbehorende Data Explorer-weergave, evenals in de ruwe data die beschikbaar is via API-eindpunten (tijdreeksen, overzicht). Houd er rekening mee dat de aandelen van zowel verwijzings- als crawlverkeer relatief zijn aan de specifieke verwijzers en crawlers die in de grafieken zijn opgenomen, en dus niet aan het totale Cloudflare-verkeer.

In de onderstaande, op verwijzers gerichte weergave die bijna de eerste vier weken van juni 2025 beslaat, zien we bijvoorbeeld dat het verwijzingsverkeer gedomineerd wordt door het zoekplatform Google, met een vrij consistent dagpatroon dat zichtbaar is in de data. (De google.* -entry omvat verwijzingsverkeer van de hoofdsite google.com , maar ook van lokale sites, zoals google.es of google.com.tw.) Als gevolg van 'prefetching' op basis van speculatieregels, wordt het verwijzingsverkeer afkomstig van Google's autonoom systeemnummer (ASN) (AS15169) hier specifiek uitgesloten van de analyse, omdat het geen actieve gebruikersconsumptie van content vertegenwoordigt.

Er zijn ook duidelijke dagpatronen zichtbaar in het aandeel van verwijzingsverzoeken op andere zoekplatforms, hoewel het verzoekaandeel maar een fractie is van wat Google doet. 

In de maand juni lag het aandeel van al het verkeer dat door AI-platformen werd doorverwezen aanzienlijk lager dan het aandeel van het verkeer dat door zoekplatforms werd doorverwezen.

Veranderingen van het crawlverkeer

Zoals hierboven opgemerkt, kan de verandering van de verhoudingswaarden in de loop der tijd veroorzaakt worden door verschuivingen in de crawl-activiteit. Deze verschuivingen zijn zichtbaar in de crawl-verkeersaandelen die beschikbaar zijn in Data Explorer, en in de ruwe gegevens die beschikbaar zijn via API-eindpunten (tijdreeksen, overzicht). In het crawlergerichte overzicht hieronder, dat bijna de eerste vier weken van juni 2025 beslaat, zien we dat het aandeel verzoeken dat verband houdt met de crawlactiviteit van Google voor zowel hun Googlebot- als GoogleOther -identifiers in de loop van de maand afneemt, met verschillende piek-/dalperioden. In dezelfde periode werd een vergelijkbaar patroon waargenomen in het HTTP-aanvraagverkeer van Google's AS15169, wat grofweg overeenkomt met deze waargenomen daling in aandeel.

Daarnaast lijkt het erop dat OpenAI's GPTBot gedurende de maand meerdere periodes heeft meegemaakt waarin er weinig tot geen crawlactiviteit werd waargenomen.

Wat dit voor contentproviders betekent

Deze verhoudingen hebben rechtstreeks invloed op het succes van contentpublicaties op internet. Hoewel de resultaten in de loop der tijd zullen variëren, is de momentele trend: meer crawls en minder verwijzingen. Oude zoekindexcrawlers scannen de content een paar keer, of minder vaak, voor elke bezoeker die ernaar toe wordt gestuurd. De toegankelijkheid van een website voor crawlers maakte het inkomstenmodel niet slechter, maar juist rendabeler.

De nieuwe gegevens die we verzamelen, suggereren dat dit niet langer het geval is. Deze modellen consumeren steeds vaker meer content, ondanks dat ze dezelfde hoeveelheid of minder verkeer naar de bron van de content sturen.

Het afgelopen jaar hebben we nieuwe hulpmiddelen uitgebracht waarmee website-eigenaren weer controle krijgen. Met één klik kunnen uitgevers de soorten AI-crawlers blokkeren die met hun content trainen. En vandaag hebben we nieuwe manieren aangekondigd om de uitwisseling van waarde eerlijk te maken voor beide partijen. We raden content creators echter nog steeds aan om hun voorkeursbeleid voor AI-crawlers te controleren en af te dwingen.

Nog één ding…

Naast het bieden van deze nieuwe inzichten rondom crawl- en verwijzingsverkeer en de bijbehorende trends, hebben we ook van de gelegenheid gebruikgemaakt om uitgebreide Verified bots-content te lanceren. De Bots-pagina op Cloudflare Radar bevat een gepagineerde lijst met geverifieerde bots, met de naam, eigenaar, categorie en rang van de bot (op basis van het aanvraagvolume). Deze lijst is nu uitgebreid tot een zelfstandige map in een nieuwe sectie Bots. In de onderstaande directory wordt voor elke geverifieerde bot een kaart weergegeven met de naam van de bot, een beschrijving, de eigenaar en categorie van de bot en de verificatiestatus. Gebruikers kunnen in de directory zoeken op botnaam, eigenaar of beschrijving, en kunnen ook filteren op categorie (bijvoorbeeld door alleen Monitoring & Analyse-bots te selecteren).

Als je op een botnaam in een kaart klikt, wordt een botspecifieke pagina geopend met metagegevens over de bot, informatie over hoe de gebruikersagent van de bot wordt weergegeven in HTTP-aanvraagheaders en hoe deze moet worden gespecificeerd in robots.txt-richtlijnen, en een verkeersgrafiek die trends in het bijbehorende HTTP-aanvraagvolume voor de geselecteerde periode toont (met een standaardvergelijking met de vorige periode). Bijbehorende gegevens zijn ook beschikbaar via de API. Wanneer we in de toekomst aanvullende informatie aan deze botspecifieke pagina's toevoegen, zullen we de updates documenteren in Changelog-vermeldingen.

We beschermen complete zakelijke netwerken, helpen klanten toepassingen op internet-schaal efficiënt te bouwen, versnellen websites en internettoepassingen, weren DDoS-aanvallen af, houden hackers op afstand, en kunnen je helpen bij je reis richting Zero Trust.

Bezoek 1.1.1.1 vanaf elk apparaat om aan de slag te gaan met onze gratis app die je internet sneller en veiliger maakt.

Als je meer wilt weten over onze missie om een beter internet te helpen opbouwen, klik dan hier. Als je op zoek bent naar een nieuwe carrièrerichting, bekijk dan onze openstaande vacatures.
RadarInternetverkeerAIBots

Volg ons op X

David Belson|@dbelson
Cloudflare|@cloudflare

Gerelateerde berichten