Assine para receber notificações de novos posts:

Declare sua independência: bloqueie bots, scrapers e crawlers de IA com um único clique

2024-07-03

7 min. de leitura
Este post também está disponível em English, 繁體中文, Français, Deutsch, 日本語, 한국어, Español e 简体中文.

Para ajudar a preservar uma internet segura para os criadores de conteúdo, acabamos de lançar um novo "botão fácil" para bloquear todos os bots de IA. O recurso está disponível para todos os clientes, inclusive os do nível gratuito.

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

A popularidade da IA generativa fez com que a demanda por conteúdo usado para treinar modelos ou executar inferências disparasse e, embora algumas empresas de IA identifiquem claramente seus bots de raspagem da web, nem todas as empresas de IA estão sendo transparentes.O Google supostamente pagava US$ 60 milhões por ano para licenciar o conteúdo gerado por usuários do Reddit, Scarlett Johansson alegou que a OpenAI usou sua voz para seu novo assistente pessoal sem seu consentimento e, mais recentemente, a Perplexity foi acusada de se passar por visitantes da web legítimos para raspar conteúdo de sites. O valor do conteúdo original em massa nunca foi tão alto.

No ano passado, a Cloudflare anunciou a possibilidade de os clientes bloquearem facilmente bots de IA que se comportam bem. Esses bots seguem o robots.txt e não usam conteúdo não licenciado para treinar seus modelos ou executar inferências para aplicativos RAG usando dados do site. Mesmo que esses bots de IA sigam as regras, os clientes da Cloudflare optam predominantemente por bloqueá-los.

Ouvimos claramente que os clientes não querem bots de IA visitando seus sites, especialmente aqueles que o fazem de forma desonesta. Para ajudar, adicionamos um novo clique único para bloquear todos os bots de IA. Está disponível para todos os clientes, inclusive os de nível gratuito. Para habilitá-lo, simplesmente navegue até a seção Segurança > Bots no painel de controle da Cloudflare e clique no botão de alternância denominado Raspadores e Crawlers de IA.

Esse recurso será atualizado automaticamente ao longo do tempo, à medida que vemos novas impressões digitais de bots ofensivos que identificamos como raspadores generalizados da web para treinamento de modelos. Para garantir que temos uma compreensão abrangente de toda a atividade dos crawlers de IA, pesquisamos o tráfego em nossa rede.

A atividade de bots de IA hoje

O gráfico abaixo ilustra os bots de IA mais populares vistos na rede da Cloudflare em termos de volume de solicitações. Analisamos os agentes de usuários comuns de crawlers de IA e agregamos o número de solicitações em nossa plataforma desses agentes de usuários de IA no ano passado:

Ao analisar o número de solicitações feitas aos sites da Cloudflare , vemos que Bytespider, Amazonbot, ClaudeBot_e GPTBot são os quatro principais crawlers de IA. Operado pela ByteDance, a empresa chinesa proprietária do TikTok, o_Bytespider seria supostamente usado para coletar dados de treinamento para seus modelos de linguagem grande (LLMs), incluindo aqueles que suportam seu concorrente do ChatGPT, o Doubao. O Amazonbot e o ClaudeBot seguem o Bytespider em volume de solicitações. O Amazonbot, supostamente usado para indexar conteúdo para as perguntas e respostas da Alexa, enviou o segundo maior número de solicitações e o ClaudeBot, usado para treinar o bot de bate-papo Claude , aumentou recentemente em volume de solicitações.

Entre os principais bots de IA que vemos, o Bytespider não apenas lidera em termos de número de solicitações, mas também na extensão de seu rastreamento de ativos da internet e na frequência com que são bloqueados. Seguindo de perto está o GPTBot, que ocupa o segundo lugar em rastreamento e bloqueio. O GPTBot, gerenciado pela OpenAI, coleta dados de treinamento para seus LLMs, que sustentam produtos orientados por IA, como o ChatGPT. Na tabela abaixo, "Participação nos sites acessados" refere-se à proporção de sites protegidos pela Cloudflare que foram acessados pelo bot de IA nomeado.

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

Bot de IA

Participação nos sites acessados

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40.40%

GPTBot

35.46%

ClaudeBot

11.17%

ImagesiftBot

8.75%

CCBot

2.14%

ChatGPT-User

1.84%

omgili

0.10%

Diffbot

0.08%

Claude-Web

0.04%

PerplexityBot

0.01%

Embora nossa análise tenha identificado os crawlers mais populares em termos de volume de solicitações e número de ativos da internet acessados, muitos clientes provavelmente não estão cientes dos crawlers de IA mais populares que rastreiam ativamente seus sites. Nossa equipe do Radar realizou uma análise das principais entradas do robots.txt nos 10 mil principais domínios da internet para identificar os bots de IA acionados com mais frequência e, em seguida, analisou com que frequência vimos esses bots em sites protegidos pela Cloudflare.

No gráfico abaixo, que analisa os crawlers não permitidos para esses sites, vemos que os clientes costumam fazer referência ao GPTBot, CCCBot e ao Google no robots.txt, mas não desaprovam especificamente crawlers de IA populares como o Bytespider e o ClaudeBot.

Com a internet agora inundada por esses bots de IA, estávamos curiosos para ver como os operadores de sites já responderam. Em junho, os bots de IA acessaram cerca de 39% dos principais um milhão de ativos da internet usando a Cloudflare, mas apenas 2,98% desses ativos tomaram medidas para bloquear ou contestar essas solicitações. Além disso, quanto mais alto na classificação (mais popular) for um ativo da internet, maior a probabilidade de ser alvo de bots de IA e, consequentemente, maior a probabilidade de bloquear tais solicitações.

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

N principais ativos da internet por número de visitantes da web vistos pela Cloudflare

% acessado por bots de IA

% de bots de IA que bloqueiam

10

80.0%

40.0%

100

63.0%

16.0%

1,000

53.2%

8.8%

10 mil

47.99%

8.92%

100 mil

44.53%

6.36%

1 milhão

38.73%

2.98%

Vemos que os operadores de sites bloqueiam completamente o acesso a esses crawlers de IA usando o robots.txt. No entanto, esses bloqueios dependem do operador do bot respeitar o robots.txt e aderir ao RFC9309 (garantia de variações do usuário em relação a todas as correspondências com o token do produto) para identificar honestamente quem são quando visitam um ativo da internet, mas os agentes de usuários são triviais para operadores de bot alterarem.

Como encontramos bots de IA fingindo ser navegadores web reais

Infelizmente, observamos operadores de bots tentando se passar por um navegador real usando um agente de usuário falsificado. Monitoramos essa atividade ao longo do tempo e temos orgulho de dizer que nosso modelo global de aprendizado de máquina sempre reconheceu essa atividade como um bot, mesmo quando os operadores mentem sobre seu agente de usuário.

Vejamos um exemplo de bot específico que outros observaram estar ocultando sua atividade. Executamos uma análise para ver como nossos modelos de aprendizado de máquina pontuaram o tráfego desse bot. No diagrama abaixo, é possível ver que todas as pontuações do bot estão firmemente abaixo de 30, indicando que nossa pontuação acredita que essa atividade provavelmente vem de um bot.

O diagrama reflete a pontuação das solicitações usando nosso mais novo modelo, onde cores "mais quentes" indicam mais solicitações caindo nessa banda e cores "mais frias" significam que menos solicitações o fizeram. Podemos ver que a grande maioria das solicitações caiu nas duas bandas inferiores, mostrando que o modelo da Cloudflare deu ao bot ofensivo uma pontuação de 9 ou menos. As alterações do agente do usuário não afetam a pontuação, porque essa é a primeira coisa que esperamos que os operadores de bots façam.

Qualquer cliente com uma regra WAF existente configurada para desafiar os visitantes da web com uma pontuação de bot abaixo de 30 (nossa recomendação) bloqueava automaticamente todo esse tráfego de bots de IA sem nenhuma ação nova de sua parte. O mesmo será verdade para os futuros bots de IA que usarão técnicas semelhantes para ocultar sua atividade.

Aproveitamos os sinais globais da Cloudflare para calcular nossa pontuação de bots , que para bots de IA como o acima, significa que os identificamos e classificamos corretamente como um "provável bot".

Quando os agentes mal-intencionados tentam rastrear os sites em grande escala, geralmente usam ferramentas e estruturas das quais podemos extrair impressões digitais. Para cada impressão digital que vemos, usamos a rede da Cloudflare, que recebe mais de 57 milhões de solicitações por segundo em média, para entender o quanto devemos confiar nessa impressão digital. Para alimentar os nossos modelos, calculamos agregações globais em muitos sinais. Com base nesses sinais, nossos modelos conseguiram sinalizar adequadamente o tráfego de bots evasivos de IA, como o exemplo mencionado acima, como bot.

O resultado desses dados agregados globalmente é que podemos detectar imediatamente novas ferramentas de raspagem e seu comportamento, sem a necessidade de identificar manualmente o bot, garantindo que os clientes permaneçam protegidos contra as mais recentes ondas de atividade de bot.

Se você tiver uma dica de um bot de IA que não está se comportando, adoraríamos investigar. Existem duas opções que você pode usar para denunciar crawlers de IA que se comportam mal:

  1. Os clientes do gerenciamento de bots Enterprise podem enviar um relatório de de ciclo de feedback falso negativo por meio do Bot Analytics, simplesmente selecionando o segmento de tráfego em que notaram o mau comportamento:

2. Também configuramos uma ferramenta de denúncias onde qualquer cliente da Cloudflare pode enviar relatórios de um bot de IA raspando seu site sem permissão.

Tememos que algumas empresas de IA, com a intenção de contornar as regras para acessar conteúdo, se adaptem persistentemente para evitar a detecção de bots. Continuaremos observando e adicionando mais bloqueios de bot à nossa regra de raspadores e crawlers de IA e evoluindo nossos modelos de aprendizado de máquina para ajudar a manter a internet um lugar onde os criadores de conteúdo possam prosperar e ter controle total sobre quais modelos seu conteúdo é usado para treinar ou executar a inferência.

Protegemos redes corporativas inteiras, ajudamos os clientes a criarem aplicativos em escala de internet com eficiência, aceleramos qualquer site ou aplicativo de internet, evitamos os ataques de DDoS, mantemos os invasores afastados e podemos ajudar você em sua jornada rumo ao Zero Trust.

Acesse 1.1.1.1 a partir de qualquer dispositivo para começar a usar nosso aplicativo gratuito que torna sua internet mais rápida e mais segura.

Para saber mais sobre nossa missão de construir uma internet melhor, comece aqui. Se estiver procurando uma nova carreira para trilhar, confira nossas vagas disponíveis.
Bots (PT)Bot ManagementAI Bots (PT)IAMachine LearningGenerative AI (PT)

Seguir no X

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

Posts relacionados

12 de setembro de 2024 às 14:15

Protecting APIs from abuse using sequence learning and variable order Markov chains

At Cloudflare, we protect customer APIs from abuse. This is no easy task, as abusive traffic can take different forms, from giant DDoS attacks to low-and-slow credential stuffing campaigns. We now address this challenge in a new way: by looking outside typical volumetric measures and using statistical machine learning to find important API client request sequences....