Suscríbete para recibir notificaciones de nuevas publicaciones:

El rastreo antes de la caída... de las referencias, así impacta la IA en los proveedores de contenido

2025-07-01

7 min de lectura
Esta publicación también está disponible en English.

Los editores de contenido acogieron con satisfacción los rastreadores y los bots de los motores de búsqueda porque ayudaban a dirigir el tráfico hacia sus sitios web. Los rastreadores veían lo que se publicaba en el sitio y mostraban ese material a los usuarios que lo buscaban. Los propietarios de los sitios podían monetizar su material porque esos usuarios seguían teniendo que hacer clic en la página para acceder a algo más allá de un título breve.

Los bots de inteligencia artificial (IA) también rastrean el contenido de un sitio, pero con un modelo de entrega completamente diferente. Estos modelos de lenguaje de gran tamaño (LLM) hacen todo lo posible por leer Internet para entrenar un sistema que pueda volver a empaquetar ese contenido para el usuario sin que este tenga que visitar la publicación original.

Es posible que las aplicaciones de IA sigan intentando citar el contenido, pero hemos descubierto que muy pocos usuarios hacen clic en relación con la frecuencia con la que el bot de IA extrae un sitio web determinado. Hemos analizado este desafío en entornos más pequeños y hoy nos complace publicar nuestras conclusiones como una nueva métrica que se muestra en la página AI Insights en Cloudflare Radar.

Los visitantes de Cloudflare Radar ahora pueden revisar la frecuencia con la que un determinado modelo de IA envía tráfico a un sitio en relación con la frecuencia con la que lo rastrea. Compartimos este análisis con un público más amplio para que los propietarios de los sitios puedan disponer de información más completa que les ayude a tomar decisiones sobre qué bots de IA deben permitir o bloquear, y para que los usuarios puedan comprender cómo el uso de la IA en conjunto afecta al tráfico de Internet.

¿Cómo funciona esta métrica?

Dado que las páginas HTML son posiblemente el contenido más valioso para estos rastreadores, las ratios mostradas se calculan dividiendo el número total de solicitudes de los agentes de usuario relevantes asociados a una plataforma de búsqueda o de IA determinada donde la respuesta fue de Content-type: text/html por el número total de solicitudes de contenido HTML en las que el encabezado Referer: contenía un nombre de host asociado a una plataforma de búsqueda o de IA determinada. Los diagramas siguientes ilustran dos escenarios comunes de rastreo y muestran que las empresas pueden utilizar diferentes agentes de usuario en función de la finalidad del rastreador. El de arriba representa una transacción simple en la que la plataforma de IA de ejemplo solicita contenido para entrenar un LLM, representándose a sí misma como AIBot. El de abajo representa un escenario en el que la plataforma de IA de ejemplo solicita contenido para atender la solicitud de un usuario, en busca de información sobre vuelos. En este caso, se representa a sí mismo como AIBot-User. El tráfico de solicitudes de estos dos agentes de usuario se agregaría bajo un único nombre de plataforma a efectos de nuestro análisis.

Cuando un usuario hace clic en un enlace de un sitio web o aplicación, el cliente suele enviar un encabezado Referer: como parte de la solicitud al sitio de destino. En el diagrama siguiente, la plataforma de IA de ejemplo ha devuelto contenido que incluye enlaces a sitios externos en respuesta a una interacción del usuario. Cuando el usuario hace clic en un enlace, se realiza una solicitud al proveedor de contenido que incluye ai.example.com en el encabezado Referer:, lo que le permite saber de dónde procede el tráfico de esa solicitud. Los nombres de host se asocian a sus respectivas plataformas a efectos de nuestro análisis.

Observaciones

Revisión de las ratios

La nueva métrica se presenta como una tabla sencilla, que compara el número de solicitudes de página HTML agregadas de rastreadores (agentes de usuario) asociados a una plataforma determinada con el número de solicitudes de página HTML de clientes remitidos por un nombre de host asociado a una plataforma determinada. La ratio calculada siempre se normaliza a una única solicitud de referencia.

La siguiente tabla muestra que, para el periodo comprendido entre el 24 y el 30 de mayo de 2025, por ejemplo, las ratios oscilan entre el 75 000:1 de Claude y el 0,25:1 de DuckDuckGo. Esto significa que la plataforma de IA Claude realizó 75 000 solicitudes de páginas HTML por cada referencia de página HTML, mientras que DuckDuckGo envió cuatro veces más referencias que solicitudes de rastreo. (Sin embargo, el tráfico remitido por la aplicación nativa de Claude no incluye un encabezado Referer:, y creemos que lo mismo es válido para el tráfico generado desde otras aplicaciones nativas. Por lo tanto, dado que los recuentos de referencias solo incluyen el tráfico procedente de las herramientas web de estos proveedores, es posible que estos cálculos exageren las ratios respectivas, aunque no está claro en qué medida.)

Por supuesto, debido a los cambios en los patrones de rastreo, estas ratios cambiarán con el tiempo. La tabla anterior también muestra los cambios en la ratio en comparación con la semana anterior, con cambios que van desde el aumento del 51 % de OpenAI hasta la disminución del 55 % de Google. La caída intersemanal de la ratio de Google se debe a una caída observada en el tráfico de rastreo de GoogleBot entre el 23 y el 27 de mayo, mientras que el crecimiento intersemanal de OpenAI está relacionado con un aumento observado en la actividad de rastreo de GPTBot que comenzó el 20 de mayo, como se ve en los gráficos siguientes.

La herramienta Data Explorer de Radar incluye una vista de series temporales de cómo estas ratios cambian a lo largo del tiempo, como en el ejemplo de Baidu a continuación. Los datos de la serie temporal también están disponibles a través de un punto final de la API.

Patrones en el tráfico de referencia

Los cambios y las tendencias en la actividad subyacente se pueden ver en la vista asociada de Data Explorer, así como en los datos sin procesar disponibles a través de los puntos finales de la API (series temporales, resumen). Ten en cuenta que los porcentajes de tráfico de referencia y de rastreo son relativos al conjunto de referencias y rastreadores incluidos en los gráficos, y no al tráfico de Cloudflare en general.

Por ejemplo, en la siguiente vista centrada en las referencias, que abarca las primeras cuatro semanas de mayo de 2025, podemos ver que el tráfico de referencia está dominado por la plataforma de búsqueda Google, con un patrón diurno bastante consistente visible en los datos. Debido a la captación previa impulsada por el uso de reglas de especulación, el tráfico de referencia procedente del número de sistema autónomo de Google (AS15169) se excluye específicamente del análisis, ya que no representa el consumo activo de contenido por parte del usuario.

Los patrones diurnos claros también son visibles en la ratio de solicitudes de referencia de otras plataformas de búsqueda, aunque la ratio de solicitudes es una fracción de lo que se ve en Google.

A lo largo de mayo, la parte del tráfico remitido por las plataformas de IA fue significativamente menor, incluso en conjunto, que la parte del tráfico remitido por las plataformas de búsqueda.

Cambios en el tráfico de rastreo

Como se ha señalado anteriormente, el cambio en los valores de la ratio a lo largo del tiempo se debe en gran medida a los cambios en la actividad de rastreo. Estos cambios son visibles en la ratio de tráfico de rastreo disponibles en Data Explorer, así como en los datos sin procesar disponibles a través de los puntos finales de la API (series temporales, resumen). En la siguiente vista centrada en el rastreador, durante las primeras cuatro semanas de mayo de 2025, podemos ver que la ratio de solicitudes relacionadas con la actividad de rastreo de Google tanto para sus identificadores Googlebot como para GoogleOtros cae significativamente el 23 de mayo, antes de empezar a recuperarse el 28 de mayo. . Esta caída observada en la actividad de rastreo se ve corroborada por un patrón similar observado en el tráfico de solicitudes HTTP de AS15169 de Google durante ese mismo periodo de tiempo. Además, parece que el tráfico de rastreadores de ClaudeBot de Anthropic desapareció efectivamente los días 26 y 27 de mayo, y que GPTBot de OpenAI observó varios periodos en los que no se registró actividad de rastreo a lo largo del mes.

Qué significa esto para los proveedores de contenido

Estas ratios afectan directamente a la viabilidad de la publicación de contenidos en Internet. Aunque variarán con el tiempo, la tendencia sigue siendo más rastreos y menos referencias cuando se comparan entre sí. Los rastreadores de índice de búsqueda heredados escaneaban tu contenido un par de veces, o menos, por cada visitante enviado. La disponibilidad de un sitio para los rastreadores hacía que su modelo de ingresos fuera más viable, no menos.

Los nuevos datos que estamos observando sugieren que ya no es así. Estos modelos siguen consumiendo más contenido, con mayor frecuencia, a pesar de enviar el mismo tráfico o menos al origen de su contenido. Hemos lanzado nuevas herramientas en los últimos meses para ayudar a los propietarios de los sitios a recuperar el control. Con un solo clic, los editores pueden bloquear los tipos de rastreadores de IA que se entrenan con sus datos. Pronto anunciaremos nuevas formas de hacer que el intercambio de valor sea justo para ambas partes de la ecuación, pero mientras tanto seguimos recomendando que los creadores de contenido auditen y luego apliquen sus políticas preferidas para los rastreadores de IA.

Protegemos redes corporativas completas, ayudamos a los clientes a desarrollar aplicaciones web de forma eficiente, aceleramos cualquier sitio o aplicación web, prevenimos contra los ataques DDoS, mantenemos a raya a los hackers, y podemos ayudarte en tu recorrido hacia la seguridad Zero Trust.

Visita 1.1.1.1 desde cualquier dispositivo para empezar a usar nuestra aplicación gratuita y beneficiarte de una navegación más rápida y segura.

Para saber más sobre nuestra misión para ayudar a mejorar Internet, empieza aquí. Si estás buscando un nuevo rumbo profesional, consulta nuestras ofertas de empleo.
RadarTráfico de InternetAIBots

Síguenos en X

David Belson|@dbelson
Cloudflare|@cloudflare

Publicaciones relacionadas