Optimización de Workers AI: disponibilidad general y nuevas funciones

Hoy, martes, celebramos el día la IA en la Developer Week 2024 ¡Bienvenido/a! En esta publicación del blog, queremos ofrecerte un resumen de los últimos anuncios y de nuestra visión sobre la IA. Hemos anunciado la disponibilidad general de Workers AI con mejores precios, una actualización de la dinámica de implementación del hardware GPU, una ampliación de nuestra asociación Hugging Face, la inferencia adaptada con la función BYO LoRA ("usa tus propios protocolos LoRA"), la compatibilidad de Python en Workers, más proveedores en AI Gateway, y el filtrado de metadatos en Vectorize.

Leveling up Workers AI: general availability and more new capabilities

Disponibilidad general de Workers AI

Hoy nos complace anunciar la disponibilidad general de nuestra plataforma de inferencia Workers AI. Tras meses trabajando en la versión beta abierta, hemos mejorado la fiabilidad y el rendimiento de nuestro servicio, hemos presentado los precios y hemos añadido muchos más modelos a nuestro catálogo.

Optimización del rendimiento y la fiabilidad

Con Workers AI, nuestro objetivo es conseguir que la inferencia de IA sea tan fiable y fácil de usar como el resto de la red de Cloudflare. A nivel interno, hemos mejorado el equilibrio de carga integrado en Workers AI. Ahora las solicitudes se pueden enrutar a más GPU en más ciudades, y cada ciudad conoce la capacidad total disponible para la inferencia de IA. En caso de que la solicitud tenga que esperar en una cola en la ciudad actual, se puede enrutar a otra ubicación, obteniendo así los resultados más rápido cuando el tráfico es elevado. Con esto, hemos aumentado los límites de velocidad en todos nuestros modelos. La mayoría de los lenguajes de gran tamaño (LLM) tienen ahora un límite de 300 solicitudes por minuto, frente a las 50 solicitudes por minuto de nuestra versión beta. Los modelos más pequeños tienen un límite de 1500-3000 solicitudes por minuto. Consulta nuestros documentos para desarrolladores para conocer los límites de velocidad de cada modelo.

Reducción de costes en modelos populares

Junto con la disponibilidad general de Workers AI, anunciamos una calculadora de precios para nuestros 10 modelos no beta a principios de este mes. Queremos que Workers AI sea una de las soluciones más asequibles y accesibles para ejecutar la inferencia, así que hemos añadido algunas optimizaciones a nuestros modelos para hacerlos más asequibles. Ahora, la ejecución de los modelos Llama 2 y Mistral 7B es más barata (más de 7 veces y más de 14 veces, respectivamente) de lo que publicamos inicialmente el 1 de marzo. Queremos seguir siendo la mejor plataforma para la inferencia de IA y seguiremos implementando optimizaciones para nuestros clientes cuando podamos.

Como recordatorio, la facturación de Workers AI comenzó el 1 de abril para nuestros modelos no beta, si bien los modelos beta siguen siendo gratuitos e ilimitados. Ofrecemos 10 000 neuronas al día gratuitas a todos los clientes. El límite de velocidad para los clientes con un plan Workers gratuito será estricto a partir de las 10 000 neuronas en 24 horas, mientras que la tarifa por uso para los clientes con un plan Workers de pago será de 0,011 USD por cada 1000 neuronas adicionales. Consulta nuestros documentos para desarrolladores sobre las tarifas de Workers AI para obtener la información más actualizada sobre los precios.

Nuevo panel de control y página de pruebas de configuración

Por último, hemos renovado nuestro panel de control de Workers AI y la página de pruebas de configuración de IA. La página de Workers AI del panel de control de Cloudflare muestra ahora análisis de uso en todos los modelos, incluidos cálculos neuronales para ayudarte a predecir mejor los precios. La página de prueba de configuración de IA te permite probar y comparar rápidamente diferentes modelos, así como configurar avisos y parámetros. Esperamos que estas nuevas herramientas ayuden a los desarrolladores a empezar a crear aplicaciones en Workers AI de manera eficaz: ¡pruébalas!

Ejecuta inferencia en GPU en más de 150 ciudades de todo el mundo

Cuando anunciamos Workers AI allá por septiembre de 2023, nos propusimos implementar GPU en nuestros centros de datos de todo el mundo. Tenemos la intención de cumplir esa promesa e implementaremos GPU adaptadas a la inferencia en casi todas partes para finales de 2024, lo que nos convertirá en la plataforma de inferencia nube-IA más distribuida. Hoy tenemos más de 150 ciudades con GPU y seguiremos implementando más a lo largo del año.

También tenemos nuestra próxima generación de servidores de cálculo con GPU, que lanzaremos en el segundo trimestre de 2024, y se traducirá en mayor rendimiento, eficiencia energética y fiabilidad con respecto a las generaciones anteriores. Ofrecimos un avance del diseño de nuestros servidores de cálculo Gen 12 en una publicación del blog en diciembre de 2023, y anunciaremos más detalles próximamente. Con Gen 12 y los lanzamientos de hardware previstos en el futuro, el siguiente paso es admitir modelos de aprendizaje automático más grandes y perfeccionar nuestra plataforma. Estas mejoras nos permitirán optimizar el rendimiento de inferencia, reducir la latencia y aumentar la disponibilidad para las cargas de trabajo de producción, así como ampliar la compatibilidad a nuevas categorías de cargas de trabajo, como las operaciones de adaptación.

Asociación con Huggingface

También estamos encantados de continuar nuestra colaboración con Hugging Face con el ánimo de ofrecer lo mejor del código abierto a nuestros clientes. Ahora, puedes visitar algunos de los modelos más populares en Hugging Face y hacer clic fácilmente para ejecutar el modelo en Workers AI si está disponible en nuestra plataforma.

Nos complace anunciar que hemos añadido 4 modelos más a nuestra plataforma junto con Hugging Face. Ahora puedes acceder al nuevo modelo Mistral 7B v0.2 con ventanas contextuales mejoradas, al modelo Hermes 2 Pro de Nous Research, la versión adaptada de Mistral 7B, al modelo Gemma 7B de Google y a Starling-LM-7B-beta, el modelo adaptado de OpenChat. Actualmente hemos seleccionado 14 modelos con Hugging Face para que estén disponibles para la inferencia GPU sin servidor, que funciona en la plataforma Workers AI de Cloudflare, y pronto añadiremos más. Para la implementación de estos modelos, utilizamos la tecnología de Hugging Face con un backend TGI, y trabajamos estrechamente con el equipo de Hugging Face para seleccionar, optimizar e implementar estos modelos.

“Estamos encantados de trabajar con Cloudflare para conseguir que la IA sea una herramienta más accesible para los desarrolladores. La propuesta que combina los modelos abiertos más populares con una API sin servidor, basada en un voluminoso número de GPU a nivel global, ofrece una oportunidad fantástica a la comunidad de Hugging Face, y tengo muchas ganas de ver qué desarrollarán con esta herramienta".- Julien Chaumond, cofundador y director técnico, Hugging Face

Puedes encontrar todos los modelos abiertos compatibles con Workers AI en esta colección de modelos de Hugging Face. El botón "Implementar en Cloudflare Workers AI" está en la parte superior de cada tarjeta de modelo. Para saber más, lee la publicación del blog de Hugging Face y echa un vistazo a nuestros documentos para desarrolladores para empezar. ¿Tienes un modelo que quieras ver en Workers AI? Envíanos un mensaje a Discord con tu petición.

Admitimos la inferencia adaptada - usa tus propios protocolos LoRAs

La inferencia adaptada es una de nuestras funciones más solicitadas para Workers AI, y ahora estamos un paso más cerca con la función BYO LoRA ("usa tus propios protocolos LoRA"). Con el uso del popular método de adaptación de bajo rango, los investigadores han descubierto cómo adoptar un modelo y adaptar algunos de sus parámetros a la tarea en cuestión, en lugar de reescribir todos los parámetros del modelo, como se haría con un modelo totalmente adaptado. Con esta ventaja, puedes obtener resultados de modelos adaptados sin el gasto computacional que supone una adaptación completa.

Ahora admitimos el uso de LoRAs entrenados en Workers AI, donde aplicamos el adaptador LoRA a un modelo base en entorno de ejecución para darte una inferencia adaptada, a un precio, tamaño y velocidad mínimos respecto a las de un modelo totalmente adaptado. En el futuro, queremos poder admitir trabajos de adaptación y modelos totalmente adaptados directamente en nuestra plataforma, pero nos entusiasma estar hoy un paso más cerca con los LoRA.

La función BYO LoRA está en versión beta abierta desde hoy para los modelos Gemma 2B y 7B, Llama 2 7B y Mistral 7B con adaptadores LoRA de hasta 100 MB de tamaño y rango máximo de 8, y hasta 30 LoRAs en total por cuenta. Como siempre, esperamos que utilices Workers AI y nuestra nueva función BYO LoRA teniendo en cuenta nuestras condiciones de servicio, incluidas las restricciones de uso específicas de cada modelo que figuran en las condiciones de licencia de los modelos.

const response = await ai.run(
  "@cf/mistralai/mistral-7b-instruct-v0.2-lora", //the model supporting LoRAs
  {
      messages: [{"role": "user", "content": "Hello world"],
      raw: true, //skip applying the default chat template
      lora: "00000000-0000-0000-0000-000000000", //the finetune id OR name 
  }
);

Para empezar, lee la publicación técnica del blog y la documentación para desarrolladores.

Escribe Workers en Python

Python es el segundo lenguaje de programación más popular del mundo (después de JavaScript) y el lenguaje preferido para crear aplicaciones de IA. A partir de hoy, en la versión beta abierta, ya puedes escribir Cloudflare Workers en Python. Python Workers admite todos los enlaces a recursos en Cloudflare, incluidos Vectorize, D1, KV, R2, entre otros.

LangChain es el marco más popular para desarrollar aplicaciones basadas en LLM, y al igual que Workers AI funciona con langchain-js, la biblioteca Python LangChain funciona con Python Workers, al igual que otros paquetes de Python como FastAPI.

La escritura de Workers en Python es tan sencilla como la escritura de Workers en JavaScript:

...y se configuran simplemente apuntando a un archivo .py en tu wrangler.toml:

from js import Response

async def on_fetch(request, env):
    return Response.new("Hello world!")

No necesitas ninguna cadena de herramientas adicional ni pasos de compilación previa. El entorno de ejecución Workers te proporciona directamente el entorno de ejecución Pyodide de Python, para reflejar cómo funcionan los Workers escritos en JavaScript.

name = "hello-world-python-worker"
main = "src/entry.py"
compatibility_date = "2024-03-18"
compatibility_flags = ["python_workers"]

Hay mucho más que analizar. Echa un vistazo a la documentación y consulta nuestra publicación del blog complementaria para obtener información detallada sobre el funcionamiento de Python Workers en segundo plano.

AI Gateway admite ahora a Anthropic, Azure, AWS Bedrock, Google Vertex y Perplexity

Nuestro producto AI Gateway ayuda a los desarrolladores a controlar y observar mejor su aplicación de IA, con análisis, almacenamiento en caché, limitación de velocidad y mucho más. Seguimos añadiendo más proveedores al producto, como Anthropic, Google Vertex y Perplexity, que nos complace anunciar hoy. En diciembre de 2023, admitimos Azure y Amazon Bedrock, lo que significa que los proveedores más populares son ahora compatibles a través de AI Gateway, incluido el propio Workers AI.

Echa un vistazo a nuestros documentos para desarrolladores para empezar a utilizar AI Gateway.

Próximamente: Registros persistentes

En el segundo trimestre de 2024, añadiremos registros persistentes para que puedas enviar tus registros (incluidas las solicitudes y las respuestas) al almacenamiento de objetos, metadatos personalizados para que puedas etiquetar las solicitudes con los Id. de usuario u otros identificadores, y gestión de secretos para que puedas gestionar de forma segura las claves API de tu aplicación.

Queremos que AI Gateway sea el plano de control de tu aplicación de IA, para que los desarrolladores puedan evaluar y enrutar dinámicamente las solicitudes a diferentes modelos y proveedores. Con nuestra función de registros persistentes, queremos que los desarrolladores utilicen sus datos registrados para adaptar los modelos con un solo clic, ejecutando finalmente el trabajo de adaptación y el modelo adaptado directamente en nuestra plataforma Workers AI. AI Gateway es solo un producto de nuestro conjunto de herramientas de IA, pero estamos entusiasmados con los flujos de trabajo y los casos de uso que pueden permitir a los desarrolladores crear aplicaciones en nuestra plataforma, y esperamos que el entusiasmo sea recíproco.

Filtrado de metadatos en Vectorize y la próxima disponibilidad general de millones de índices vectoriales

Vectorize es otro componente de nuestro conjunto de herramientas para aplicaciones de IA. Vectorize, cuya versión beta abierta se lanzó en septiembre de 2023, permite a los desarrolladores persistir incrustaciones (vectores), como las generadas a partir de los modelos de inserción de texto de Workers AI, y buscar la coincidencia más cercana para casos de uso de compatibilidad como la búsqueda de similitudes o recomendaciones. Sin una base de datos vectorial, el resultado del modelo se olvida y no se puede recuperar sin pagar costes adicionales para volver a ejecutar un modelo.

Desde la versión beta abierta de Vectorize, hemos añadido el filtrado de metadatos. Esta función permite a los desarrolladores combinar la búsqueda vectorial con el filtrado de metadatos arbitrarios, admitiendo la complejidad de consulta en la aplicación de IA. Estamos trabajando en la disponibilidad general de Vectorize y su lanzamiento será previsiblemente en junio de 2024, e incluirá compatibilidad para varios millones de índices vectoriales.

La plataforma para desarrolladores más completa para crear aplicaciones de IA

// Insert vectors with metadata
const vectors: Array<VectorizeVector> = [
  {
    id: "1",
    values: [32.4, 74.1, 3.2],
    metadata: { url: "/products/sku/13913913", streaming_platform: "netflix" }
  },
  {
    id: "2",
    values: [15.1, 19.2, 15.8],
    metadata: { url: "/products/sku/10148191", streaming_platform: "hbo" }
  },
...
];
let upserted = await env.YOUR_INDEX.upsert(vectors);

// Query with metadata filtering
let metadataMatches = await env.YOUR_INDEX.query(<queryVector>, { filter: { streaming_platform: "netflix" }} )

En la plataforma para desarrolladores de Cloudflare, creemos que todos los desarrolladores deberían poder crear y ofrecer rápidamente aplicaciones integrales, y eso incluye también las experiencias con IA. Con nuestra disponibilidad general de Workers AI, la compatibilidad de Python en Workers, AI Gateway, Vectorize, y nuestra asociación con Hugging Face, hemos ampliado el abanico de posibilidades de lo que puedes desarrollar con IA en nuestra plataforma. Esperamos que te entusiasme tanto como nosotros. Echa un vistazo a todos nuestros documentos para desarrolladores para empezar, y cuéntanos lo que estás desarrollando.

Blog de Cloudflare