Suscríbete para recibir notificaciones de nuevas publicaciones:

Empieza a verificar y controlar los modelos de IA que acceden a tus contenidos

2024-09-23

9 min de lectura
Esta publicación también está disponible en English, 繁體中文, Français, Deutsch, 日本語, 한국어 y 简体中文.

Hasta ahora, los propietarios de los sitios no podían determinar cómo los servicios de IA utilizaban su contenido para el entrenamiento u otros fines. Hoy, Cloudflare lanza un conjunto de herramientas para que los propietarios, creadores y editores de sitios puedan recuperar fácilmente el control de cómo su contenido está disponible para los bots y rastreadores relacionados con la IA. Ahora, todos los clientes de Cloudflare pueden auditar y controlar cómo los modelos de IA acceden al contenido de su sitio.

Empezamos este lanzamiento con una vista de análisis detallados de los servicios de IA que rastrean tu sitio y el contenido específico al que acceden. Los clientes pueden revisar la actividad por proveedor de IA y por tipo de bot y ver qué secciones de su sitio son las más populares. Estos datos están disponibles para todos los sitios de Cloudflare y no requieren ninguna configuración.

Esperamos que este nuevo nivel de visibilidad impulse a los equipos a tomar una decisión sobre su exposición a los rastreadores de IA. Para ayudarles a tomar esa decisión, Cloudflare ofrece ahora una opción de un solo clic en nuestro panel de control que permite bloquear al instante el acceso de cualquier rastreador de IA a cualquier sitio. A continuación, los equipos pueden utilizar esta "pausa" para decidir si quieren seguir permitiendo determinados tipos de bots o proveedores de IA. Una vez tomada esa decisión, esos administradores pueden utilizar los nuevos filtros del panel de control de Cloudflare para aplicar esas políticas con apenas dos clics.

Algunos clientes ya han tomado la decisión de negociar acuerdos directamente con empresas de IA. Muchos de esos contratos incluyen condiciones sobre la frecuencia de exploración y el tipo de contenido al que se puede acceder. Queremos que esos editores tengan las herramientas necesarias para medir la implementación de esos acuerdos.  Como parte del anuncio de hoy, los clientes de Cloudflare ya pueden generar un informe con un solo clic que se puede utilizar para auditar la actividad permitida en dichos contratos.

También creemos que todos los sitios, sea cual sea su tamaño, deberían poder determinar cómo quieren que los modelos de IA les compensen por el uso de su contenido. El anuncio de hoy muestra una nueva función de monetización de Cloudflare que proporcionará a los propietarios de los sitios las herramientas necesarias para establecer precios, controlar el acceso y generar valor a partir de la exploración de su contenido.

¿Cuál es el problema?

Hasta hace poco, los bots de Internet, ya fueran de apropiación de contenido o de otro tipo, se clasificaban básicamente en dos categorías claras: buenos y malos. Los bots buenos, como los rastreadores de los motores de búsqueda, ayudaban al público a descubrir tu sitio y dirigían el tráfico hacia él. Los bots malos intentaban dejar tu sitio sin conexión, adelantarse en la cola a tus clientes o robar datos de la competencia. Hemos desarrollado la plataforma de gestión de bots de Cloudflare para que puedas distinguir entre estas dos amplias categorías y permitirlas o bloquearlas.

El auge de los modelos lingüísticos de gran tamaño (LLM) de IA y otras herramientas generativas creó una tercera categoría menos clara. A diferencia de los bots malos, los rastreadores asociados a estas plataformas no intentan activamente dejar tu sitio sin conexión ni entorpecer la llegada de tus clientes. No intentan robar datos confidenciales; solo quieren explorar el contenido de tu sitio que ya es público.

Sin embargo, a diferencia de los bots útiles, estos rastreadores relacionados con la IA no dirigen necesariamente el tráfico a tu sitio. Los bots de apropiación de datos de IA exploran el contenido de tu sitio para entrenar nuevos LLM. A continuación, tu material se pone en una especie de mezclador, se combina con otros contenidos y se utiliza para responder a las preguntas de los usuarios sin hacer atribución a tu sitio ni necesidad de que los usuarios lo visiten. Otro tipo de rastreador, los bots rastreadores de búsqueda de IA, exploran tu contenido e intentan citarlo en la respuesta a la búsqueda de un usuario. La desventaja es que esos usuarios podrían simplemente permanecer en esa interfaz, en lugar de visitar tu sitio, porque la respuesta se recopila en la página que tienen delante.

Esta falta de claridad obliga a los propietarios de los sitios a tomar una difícil decisión. El intercambio de valor es incierto. Los propietarios de los sitios se encuentran en desventaja mientras intentan ponerse al día. Muchos sitios permitieron que estos rastreadores de IA exploraran su contenido porque estos rastreadores, en su mayor parte, parecían bots "buenos" (como resultado, el tráfico a su sitio se redujo, ya que su contenido se reempaquetaba en respuestas escritas por la IA).

Creemos que esto supone un riesgo para una red de Internet abierta. Si no pueden controlar la exploración ni obtener valor, los propietarios de los sitios no tendrán motivación suficiente para lanzar o mantener propiedades de Internet. Los creadores ocultarán una mayor parte de su contenido detrás de muros de pago y los editores más grandes firmarán acuerdos directos. A su vez, los proveedores de modelos de IA tendrán dificultades para encontrar y acceder a la larga lista de contenido de alta calidad en sitios más pequeños.

Ambas partes carecen de las herramientas para crear un intercambio saludable y transparente de permisos y valor. A partir de hoy, Cloudflare proporciona a los propietarios de los sitios los servicios que necesitan para empezar a solucionar este problema. Para empezar, recomendamos a todos nuestros clientes realizar una serie de pasos que hemos desglosado.

Paso 1: comprende cómo los modelos de IA utilizan tu sitio

Ahora, todos los sitios de Cloudflare tienen acceso a una nueva vista de análisis que resume el comportamiento de rastreo de los servicios de IA más populares y conocidos. Puedes empezar consultando esta información para comprender cómo la IA explora tu contenido. Para ello, selecciona un sitio en tu panel de control y ve a la pestaña Auditoría de IA en la barra de navegación del lado izquierdo.

BLOG-2509 2

Cuando los proveedores de modelos de IA acceden al contenido de tu sitio, confían en herramientas automatizadas (los "bots" o "rastreadores") para explorar las páginas. El bot solicitará el contenido de tu página, capturará la respuesta y la almacenará como parte de un futuro conjunto de entrenamiento de datos o la recordará para posteriores resultados del motor de búsqueda de IA.

Estos bots suelen identificarse en tu sitio (y en la red de Cloudflare) al incluir un encabezado HTTP en su solicitud (el agente de usuario). Sin embargo, en algunos casos es posible que un bot de uno de estos servicios de IA no envíe el encabezado y que para identificarlo Cloudflare se base en otras heurísticas como la dirección IP o el comportamiento.

Cuando el bot se identifique, el encabezado contendrá una cadena de texto con el nombre del bot. Por ejemplo, Anthropic a veces rastrea sitios en Internet con un bot llamado ClaudeBot. Cuando ese servicio solicita el contenido de una página de tu sitio en Cloudflare, Cloudflare registra el agente de usuario como ClaudeBot.

BLOG-2509 3

Cloudflare toma los registros recopilados de las visitas a tu sitio y busca agentes de usuario que coincidan con bots y rastreadores de IA conocidos. Ofrecemos un resumen de la actividad de rastreadores individuales y también te proporcionamos filtros para revisar solo las actividades de plataformas de IA específicas. Muchas empresas de IA dependen de varios rastreadores que sirven para distintos propósitos. Cuando OpenAI explora los sitios para la apropiación de datos, confía en GPTBot; sin embargo, cuando rastrea sitios para su nuevo motor de búsqueda de IA, utiliza OAI-SearchBot.

Esas diferencias son importantes. La exploración de distintos tipos de bot puede afectar al tráfico de tu sitio o a la atribución de tu contenido. Los motores de búsqueda de IA suelen enlazar a sitios como parte de su respuesta, lo que podría enviar a los visitantes a tu destino. En ese caso, podrías estar expuesto a que esos tipos de bots rastreen tu propiedad de Internet. Por otro lado, la única finalidad de los bots de apropiación de datos de IA es leer la mayor cantidad posible de Internet para entrenar modelos futuros o mejorar los existentes.

Creemos que mereces saber por qué un bot rastrea tu sitio, así como cuándo y con qué frecuencia. El lanzamiento de hoy te ofrece un filtro para revisar la actividad de los bots por categorías, como Bot de apropiación de datos de IA, Rastreador de búsqueda de IA y Archivador.

BLOG-2509 4

Con estos datos, puedes empezar a analizar cómo los modelos de IA acceden a tu sitio. Esa información puede ser abrumadora, especialmente si tu equipo aún no ha tenido tiempo de decidir cómo quieres gestionar la exploración de tu contenido por parte de la IA. Si no estás seguro de cómo responder, continúa con el paso 2.

Paso 2: dedica un momento a decidir qué hacer a continuación

Hemos hablado con varias organizaciones que saben que sus sitios son destinos valiosos para los rastreadores de IA, pero aún no saben qué hacer al respecto. Estos equipos necesitan un "tiempo muerto" antes de poder tomar una decisión con conocimiento de causa sobre cómo poner sus datos a disposición de estos servicios.

Cloudflare te ofrece ese sencillo botón ahora mismo. Cualquier cliente de cualquier plan puede optar por bloquear todos los bots y rastreadores de IA para que puedas hacer una pausa mientras decides qué quieres permitir.

Para implementar esa opción, ve a la sección Bots en la pestaña Seguridad del panel de control de Cloudflare. Sigue el enlace azul en la esquina superior derecha para configurar cómo el proxy de Cloudflare gestiona el tráfico de bots. A continuación, mueve el botón de la tarjeta "Bloquear rastreadores y bots de apropiación de contenido de IA" a la posición "Activado".

BLOG-2509 5

Esta opción, de un solo clic, impide que los bots y rastreadores conocidos relacionados con la IA accedan a tu sitio en función de una lista que mantiene Cloudflare. Una vez aplicado un bloqueo, tú y tu equipo podéis tomar una decisión menos apresurada sobre qué hacer a continuación con vuestro contenido.

Paso 3: controla los bots que quieres permitir

El botón de pausa da tiempo a tu equipo para decidir cómo quieres que sea la relación entre estos rastreadores y tu contenido. Una vez que tu equipo haya tomado una decisión, puedes empezar a confiar en la red de Cloudflare para implementar esa política.

Si esa decisión es "no vamos a permitir ningún rastreo", puedes dejar el botón de bloqueo indicado anteriormente en "Activado". Si quieres permitir una exploración selectiva, el lanzamiento de hoy te ofrece opciones para permitir que determinados tipos de bots, o solo bots de determinados proveedores, accedan a tu contenido.

Algunos equipos decidirán permitir que los bots asociados con los motores de búsqueda de IA exploren sus propiedades de Internet porque esas herramientas aún pueden dirigir el tráfico al sitio. Otras organizaciones pueden firmar acuerdos con un proveedor de modelos específico y querrán permitir que cualquier tipo de bot de ese proveedor acceda a su contenido. Ahora los clientes pueden ir a la sección WAF del panel de control de Cloudflare para implementar estos tipos de políticas.

BLOG-2509 6

Los administradores también pueden crear reglas que, por ejemplo, bloqueen todos los bots de IA excepto los de una plataforma específica. Los equipos pueden implementar estos tipos de filtros si son escépticos acerca de la mayoría de las plataformas de IA, pero están satisfechos con un proveedor de modelos de IA y sus políticas. Estos tipos de reglas también se pueden utilizar para implementar contratos en los que el propietario de un sitio ha negociado permitir la exploración a un único proveedor. El administrador del sitio debería crear una regla para bloquear todos los tipos de bots relacionados con la IA y, a continuación, añadir una excepción que permitiera el bot o bots específicos de su socio de IA.

BLOG-2509 7

También recomendamos que los clientes consideren la posibilidad de actualizar sus condiciones de servicio para cubrir este nuevo caso de uso, además de aplicar estos nuevos filtros. Hemos documentado los pasos que sugerimos que sigan los bots y rastreadores "buenos ciudadanos" con respecto a los archivos robots.txt. Como una ampliación de esas prácticas recomendadas, hemos añadido una nueva sección a esa documentación en la que proporcionamos un apartado de condiciones de servicio de ejemplo que los propietarios de sitios pueden considerar utilizar para establecer que la exploración de la IA debe seguir las políticas definidas en tu archivo robots.txt.

Paso 4: audita tus acuerdos de exploración existentes

Un número cada vez mayor de sitios está firmando acuerdos directamente con proveedores de modelos para permitir la utilización de su contenido a cambio de un pago. Muchos de estos acuerdos contienen disposiciones que determinan la velocidad de rastreo de determinadas secciones o de sitios completos. La pestaña Auditoría de IA de Cloudflare te proporciona las herramientas que necesitas para supervisar ese tipo de contratos.

Ahora, la tabla al final de la herramienta Auditoría de IA enumera el contenido más popular en tu sitio, clasificado por el número de exploraciones realizadas en el período de tiempo del filtro establecido en la parte superior de la página. Puedes hacer clic en el botón Exportar a CSV para descargar rápidamente un archivo con los detalles que se presentan aquí para utilizarlos a fin de comentar cualquier discrepancia con la plataforma de AI a la que permites acceder a tu contenido.

BLOG-2509 8

En este momento, los datos que tienes a tu disposición representan las métricas clave que nos han comentado nuestros clientes para este tipo de acuerdos: solicitudes en determinadas páginas y solicitudes en todo el sitio.

Paso 5: prepara tu sitio para generar valor de la exploración de la IA

No todo el mundo dispone del tiempo o los contactos necesarios para negociar con las empresas de IA. Hasta ahora, solo los mayores editores de Internet contaban con los recursos para establecer ese tipo de condiciones y cobrar por su contenido.

A los demás les quedaban solo dos opciones básicas sobre cómo manejar sus datos: bloquear por completo las exploraciones o permitir el acceso sin restricciones. Los lanzamientos de hoy ofrecen a los creadores de contenido más visibilidad y control que solo esas dos opciones. Sin embargo, una larga lista de sitios en Internet todavía carece de un procedimiento de monetización.

Creemos que todos los sitios, sea cual sea su tamaño, deben recibir una compensación justa por el uso de su contenido. Cloudflare tiene previsto lanzar un nuevo componente de nuestro panel de control que va más allá del simple bloqueo y análisis de los rastreos. Los propietarios de los sitios tendrán la posibilidad de establecer un precio por su sitio, o secciones de su sitio, y cobrar a los proveedores de modelos en función de sus exploraciones y del precio que hayas establecido. Nosotros nos encargamos del resto para que puedas centrarte en crear contenido de calidad para tu público.

La forma más rápida de prepararte para generar valor a través de este nuevo componente es asegurarte de que tus sitios utilizan la red de Cloudflare. Tenemos previsto invitar a los sitios a participar en la versión beta en función de la fecha en que se unieron a Cloudflare. ¿Quieres que te avisemos cuando esté disponible? Háznoslo saber aquí.

BLOG-2509 9

Protegemos redes corporativas completas, ayudamos a los clientes a desarrollar aplicaciones web de forma eficiente, aceleramos cualquier sitio o aplicación web, prevenimos contra los ataques DDoS, mantenemos a raya a los hackers, y podemos ayudarte en tu recorrido hacia la seguridad Zero Trust.

Visita 1.1.1.1 desde cualquier dispositivo para empezar a usar nuestra aplicación gratuita y beneficiarte de una navegación más rápida y segura.

Para saber más sobre nuestra misión para ayudar a mejorar Internet, empieza aquí. Si estás buscando un nuevo rumbo profesional, consulta nuestras ofertas de empleo.
Birthday Week (ES)AI Bots (ES)IALLM (ES)

Síguenos en X

Cloudflare|@cloudflare

Publicaciones relacionadas

27 de septiembre de 2024, 13:00

Our container platform is in production. It has GPUs. Here’s an early look

We’ve been working on something new — a platform for running containers across Cloudflare’s network. We already use it in production, for AI inference and more. Today we want to share an early look at how it’s built, why we built it, and how we use it ourselves. ...