Suscríbete para recibir notificaciones de nuevas publicaciones:

Declara tu independencia de la IA: evita los bots de IA, de apropiación de contenido y de rastreo web con un solo clic

2024-07-03

5 min de lectura
Esta publicación también está disponible en English, 繁體中文, Français, Deutsch, 日本語, 한국어, Português y 简体中文.

Con el fin de ayudar a preservar la seguridad de Internet para los creadores de contenido, acabamos de lanzar una nueva función que permite bloquear todos los bots de IA con solo un clic. Está disponible para todos los clientes, incluidos los clientes suscritos a nuestro plan gratuito.

Declaring your AIndependence: block AI bots, scrapers and crawlers with a single click

La popularidad de la IA generativa ha disparado la demanda de contenido utilizado para entrenar modelos o ejecutar inferencias, y, aunque algunas empresas de IA identifican claramente sus bots de extracción de contenidos web, no todas son transparentes. Según informes, Google pagará 60 millones de dólares al año para utilizar el contenido generado por los usuarios de Reddit. También es sabido que Scarlett Johansson alegó que OpenAI utilizó su voz para su nuevo asistente personal sin su consentimiento y, más recientemente, Perplexity ha sido acusada de hacerse pasar por visitantes web legítimos para extraer contenido de sitios web. El valor del contenido original en masa nunca ha sido tan alto.

El año pasado, Cloudflare anunció la capacidad para permitir a sus clientes bloquear fácilmente los bots buenos de IA. Estos bots siguen las reglas del archivo robots.txt y no utilizan contenido sin licencia para entrenar sus modelos o ejecutar inferencias para aplicaciones RAG utilizando datos de sitios web. Aunque estos bots de IA siguen las reglas, los clientes de Cloudflare optan mayoritariamente por bloquearlos.

Entendemos claramente que los clientes no quieren que los bots de IA visiten sus sitios web, y especialmente aquellos que lo hacen de forma fraudulenta. Para ayudarles, hemos añadido una nueva función que con un solo clic bloquea todos los bots de IA. Está disponible para todos los clientes, incluidos los clientes suscritos al plan gratuito. Para activarlo, solo tienes que ir a la sección Seguridad > Bots del panel de control de Cloudflare y hacer clic en el botón AI Scrapers and Crawlers.

Esta función se actualizará automáticamente con el tiempo a medida que veamos nuevas huellas digitales de bots infractores que identifiquemos como rastreadores web para el entrenamiento de modelos. Para asegurarnos de que tenemos un conocimiento exhaustivo de toda la actividad de los rastreadores de IA, hemos analizado el tráfico en nuestra red.

Actividad actual de los bots de IA

El siguiente gráfico muestra los bots de IA más populares observados en la red de Cloudflare en términos de su volumen de solicitudes. Analizamos los agentes de usuario de rastreadores de IA comunes y agrupamos el número de solicitudes en nuestra plataforma procedentes de estos agentes de usuario de IA durante el último año:

Si observamos el número de solicitudes realizadas a los sitios de Cloudflare, vemos que Bytespider, Amazonbot, ClaudeBot y GPTBot son los cuatro principales rastreadores de IA. ByteDance, la empresa china propietaria de TikTok, utiliza Bytespider para recopilar datos de entrenamiento para sus modelos de lenguaje de gran tamaño (LLM), incluidos los que dan soporte a su rival ChatGPT, Doubao. Amazonbot y ClaudeBot siguen a Bytespider en volumen de solicitudes. Amazonbot, que supuestamente se utiliza para indexar el contenido de las respuestas a las preguntas de Alexa, envió el segundo mayor número de solicitudes y ClaudeBot, que se utiliza para entrenar al chatbot de Claude, ha aumentado recientemente su volumen de solicitudes.

Entre los principales bots de IA que observamos, Bytespider no solo lidera en términos de número de solicitudes, sino también en cuanto al alcance de su rastreo de las propiedades de Internet y la frecuencia con la que se bloquea. Le sigue de cerca GPTBot, que ocupa el segundo lugar tanto en rastreo como en bloqueo. GPTBot, gestionado por OpenAI, recopila datos de entrenamiento para sus LLM, en los que se basan productos de IA como ChatGPT. En la siguiente tabla, la columna de "Porcentaje de sitios web visitados" se refiere a la proporción de sitios web protegidos por Cloudflare a los que accedió el bot de IA mencionado.

.tg {border-collapse:collapse;border-color:#ccc;border-spacing:0;} .tg td{background-color:#fff;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{background-color:#f0f0f0;border-color:#ccc;border-style:solid;border-width:1px;color:#333; font-family:Arial, sans-serif;font-size:14px;font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top} .tg .tg-0lax{text-align:left;vertical-align:top}

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

Bot de IA

Porcentaje de sitios web visitados

Bytespider

Top N Internet properties by number of visitors seen by Cloudflare % accessed by AI bots % blocking AI bots
10 80.0% 40.0%
100 63.0% 16.0%
1,000 53.2% 8.8%
10,000 47.99% 8.92%
100,000 44.53% 6.36%
1,000,000 38.73% 2.98%

40,40 %

GPTBot

35,46 %

ClaudeBot

11,17 %

ImagesiftBot

8,75 %

CCBot

2,14 %

ChatGPT-User

1,84 %

omgili

0,10 %

Diffbot

0,08 %

Claude-web

0,04 %

PerplexityBot

0,01 %

Aunque nuestro análisis identificó los rastreadores más populares en términos de volumen de solicitudes y número de propiedades de Internet consultadas, es probable que muchos clientes no sean conscientes de que los rastreadores de IA más populares rastrean activamente sus sitios.

El equipo de Cloudflare Radar analizó las principales entradas del archivo robots.txt en los 10 000 principales dominios de Internet para identificar el bot de IA más utilizado, y luego observó la frecuencia con la que veíamos estos bots en sitios protegidos por Cloudflare. En el gráfico siguiente, que analiza los rastreadores no permitidos para estos sitios, vemos que los clientes suelen hacer referencia a GPTBot, CCBot y Google en robots.txt, pero no deshabilitan específicamente a los rastreadores de IA más populares como Bytespider y ClaudeBot.

Ahora que Internet está inundado de estos bots de IA, teníamos curiosidad por ver la respuesta de los operadores de sitios web. En junio, los bots de IA accedieron a cerca del 39 % del millón de propiedades de Internet que más utilizan Cloudflare, pero solo el 2,98 % de estas propiedades adoptaron medidas para bloquear o cuestionar esas solicitudes. Además, cuanto más alta sea la clasificación (más popular) de una propiedad de Internet, más probable es que sea el objetivo de un bot de IA y, en consecuencia, más probable es que bloquee tales solicitudes.

.tg {border-collapse:collapse;border-spacing:0;} .tg td{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; overflow:hidden;padding:10px 5px;word-break:normal;} .tg th{border-color:black;border-style:solid;border-width:1px;font-family:Arial, sans-serif;font-size:14px; font-weight:normal;overflow:hidden;padding:10px 5px;word-break:normal;} .tg .tg-lqy6{text-align:right;vertical-align:top} .tg .tg-kxn2{background-color:#EFEFEF;font-weight:bold;text-align:center;vertical-align:top}

Top N de propiedades de Internet por número de visitantes web vistos por Cloudflare

% de acceso de bots de IA

% que bloquea bots de IA

10

80,0 %

40 %

100

63 %

16 %

1000

53,2 %

8,8 %

10.000

47,99 %

8,92 %

100 000

44,53 %

6,36 %

1 000 000

38,73 %

2,98 %

Vemos que los operadores de sitios web bloquean por completo el acceso a estos rastreadores de IA utilizando el archivo robots.txt. Sin embargo, estos bloqueos dependen de que el operador del bot siga las reglas del archivo robots.txt y de su conformidad con el RFC9309 (que garantiza que las variaciones específicas de usuario de todas las páginas del producto coincidan con el token de producto) para identificar honestamente quiénes son cuando visitan una propiedad de Internet. Sin embargo, los agentes de usuario pueden ser modificados fácilmente por los operadores de bots.

Cómo encontramos bots de IA que fingen ser navegadores web reales

Lamentablemente, hemos observado que los operadores de bots intentan aparentar ser un navegador real mediante el uso de un agente de usuario falsificado. Hemos supervisado esta actividad a lo largo del tiempo, y estamos orgullosos de afirmar que nuestro modelo global de aprendizaje automático siempre ha reconocido esta actividad como un bot, incluso cuando los operadores mienten sobre su agente de usuario.

Veamos a modo de ejemplo un bot específico que otros observaron que ocultaba su actividad. Realizamos un análisis para ver cómo nuestros modelos de aprendizaje automático puntuaban el tráfico procedente de este bot. En el siguiente diagrama, puedes ver que todas las puntuaciones de bots están claramente por debajo de 30, lo que indica que nuestra puntuación cree que es probable que esta actividad proceda de un bot.

El diagrama refleja la puntuación de las solicitudes utilizando nuestro modelo más reciente, donde los colores "más cálidos" indican que un mayor número de consultas correspondía a esta banda, y los colores "más fríos" significan que un menor número de consultas lo hacía. Podemos ver que la gran mayoría de las solicitudes corresponden a las dos bandas inferiores, lo que demuestra que el modelo de Cloudflare otorgó al bot fraudulento una puntuación de 9 o inferior. Los cambios del agente de usuario no tienen ningún efecto en la puntuación, porque es lo primero que esperamos que hagan los operadores de bots.

Cualquier cliente con una regla WAF en vigor configurada para cuestionar a visitantes con una puntuación de bot inferior a 30 (nuestra recomendación) bloqueaba automáticamente todo este tráfico de bots de IA sin que el cliente tuviera que intervenir. Lo mismo ocurrirá con los futuros bots de IA que utilicen técnicas similares para ocultar su actividad.

Usamos las señales globales de Cloudflare para calcular nuestra puntuación de bot, que para bots de IA como el anterior, refleja que los identificamos correctamente y los calificamos como "probable bot ".

Cuando los ciberdelincuentes intentan rastrear sitios web a escala, suelen utilizar herramientas y marcos cuya huella digital podemos identificar. Por cada huella digital que observamos, utilizamos la red de Cloudflare, que procesa una media de más de 57 millones de solicitudes por segundo, para comprender hasta qué punto debemos confiar en esta huella digital. Para impulsar nuestros modelos, calculamos datos agregados globales a través de muchas señales. Sobre la base de estas señales, nuestros modelos pudieron identificar adecuadamente como bots, el tráfico procedente de bots de IA evasivos, como el ejemplo mencionado anteriormente.

La conclusión de estos datos agregados globalmente es que podemos detectar inmediatamente nuevas herramientas de apropiación y su comportamiento sin necesidad de identificar manualmente la huella digital del bot, lo que garantiza que los clientes estén protegidos de las últimas oleadas de actividad de bots.

Si tienes alguna pista sobre un bot de IA con un comportamiento anómalo, nos encantaría investigarlo. Hay dos opciones que puedes utilizar para informar sobre el mal comportamiento de los rastreadores de IA:

  1. Los clientes del plan Enterprise que utilizan nuestra solución de gestión de bots pueden enviar un informe de bucle de retroalimentación de falsos negativos a través de nuestra herramienta de análisis de bots simplemente seleccionando el segmento de tráfico en el que han observado un comportamiento inadecuado:

2. También hemos creado una herramienta de elaboración de informes para que cualquier cliente de Cloudflare pueda informar sobre bots de IA que se estén apropiando de su sitio web sin permiso.

Tememos que algunas empresas de IA que intentan eludir las reglas para acceder a contenidos sigan adaptándose para eludir la detección de bots. Seguiremos atentos y añadiremos más bloques de bots a nuestra regla AI Scrapers y Crawlers. Desarrollaremos nuestros modelos de aprendizaje automático para ayudar a que Internet siga siendo un lugar donde los creadores de contenido puedan progresar y mantener el control total sobre los modelos que se utilizan para entrenar o ejecutar la inferencia.

Protegemos redes corporativas completas, ayudamos a los clientes a desarrollar aplicaciones web de forma eficiente, aceleramos cualquier sitio o aplicación web, prevenimos contra los ataques DDoS, mantenemos a raya a los hackers, y podemos ayudarte en tu recorrido hacia la seguridad Zero Trust.

Visita 1.1.1.1 desde cualquier dispositivo para empezar a usar nuestra aplicación gratuita y beneficiarte de una navegación más rápida y segura.

Para saber más sobre nuestra misión para ayudar a mejorar Internet, empieza aquí. Si estás buscando un nuevo rumbo profesional, consulta nuestras ofertas de empleo.
Bots (ES)Bot Management (ES)AI Bots (ES)IAMachine LearningGenerative AI (ES)

Síguenos en X

Adam Martinetti|@adamemcf
Reid Tatoris|@reidtatoris
Cloudflare|@cloudflare

Publicaciones relacionadas

27 de septiembre de 2024, 13:00

Our container platform is in production. It has GPUs. Here’s an early look

We’ve been working on something new — a platform for running containers across Cloudflare’s network. We already use it in production, for AI inference and more. Today we want to share an early look at how it’s built, why we built it, and how we use it ourselves. ...