Cloudflare permite que la IA se suelte del borde de la red

Reeditado por Platón

seguidores: 0

Los modelos de IA generativa podrían entrenarse en grupos masivos de GPU, pero Cloudflare sostiene que el lugar obvio para ejecutarlos no es sólo el borde sino la propia red.

El miércoles el gigante del reparto anunció un conjunto de servicios de inteligencia artificial destinados a eliminar la complejidad de implementar y ejecutar modelos de lenguaje grande (LLM) y otros algoritmos de aprendizaje automático (ML), al mismo tiempo que logra la latencia más baja posible.

Bueno, en realidad, la latencia más baja posible se lograría ejecutando la carga de trabajo de inferencia en el dispositivo del usuario. Intel dio mucha importancia a esto, promocionando el auge de la generación de PC con IA, la semana pasada en Intel Innovation. Pero si bien esto podría tener sentido en algunos casos, Cloudflare sostiene que los dispositivos locales aún no son lo suficientemente potentes.

“Esto convierte a la red en el tesoro de la inferencia. No muy lejos, con suficiente potencia informática, perfecto”, escribe el negocio.

Sin servidor para GPU

La suite de IA comprende tres servicios principales. El primero de ellos es una extensión de su plataforma Workers sin servidor para admitir cargas de trabajo aceleradas por GPU. El servicio, denominado Workers AI, está diseñado para agilizar el proceso de implementación de modelos previamente entrenados.

“Sin experiencia en aprendizaje automático, sin buscar GPU. Simplemente elige uno de los modelos proporcionados y listo”, afirma Cloudflare.

Se nos dice que la plataforma se ejecuta sobre GPU de Nvidia, aunque Cloudflare no nos dijo cuáles. "La tecnología que Cloudflare ha creado puede dividir una tarea de inferencia entre múltiples GPU diferentes, porque nos encargamos de la programación y del sistema, y decidiremos qué chip o chips tienen más sentido para entregar eso", dijo. El registro en un comunicado.

En aras de la simplicidad, la plataforma no admite (al menos no inicialmente) modelos suministrados por el cliente. Se nos dice que planea implementar esto funcionalmente en el futuro, pero, por ahora, está limitado a seis modelos previamente entrenados, que incluyen:

Meta's Llama 2 7B Int8 para generación de texto
M2m100-1.2 de Meta para traducción
Whisper de OpenAI para el reconocimiento de voz
Distilbert-sst-2-int8 de Hugging Face para clasificación de texto
Resnet-50 de Microsoft para clasificación de imágenes
Bge-base-en-v1.5 de Baai para incrustaciones

Sin embargo, Cloudflare dice que está trabajando para ampliar esta lista en un futuro próximo. Como muchos aspirantes a la IA, tiene solicitado la ayuda de Hugging Face para optimizar modelos adicionales para el servicio.

No está claro si existe un límite en el tamaño de los modelos que la plataforma puede admitir, pero la lista inicial ofrece algunas pistas. Cloudflare está haciendo que Llama 2 LLM de siete mil millones de parámetros de Meta esté disponible ejecutándose en Int8, lo que requeriría alrededor de 7 GB de memoria GPU. La compañía también señala que "si está buscando ejecutar cientos de miles de millones de versiones de parámetros de modelos, la nube centralizada será más adecuada para su carga de trabajo".

Una vez en funcionamiento, Cloudflare dice que los clientes pueden integrar el servicio en sus aplicaciones utilizando API REST o vinculándolo a la interfaz de su sitio web Pages.

Cómo aplicar todos los conceptos

Debido a que Workers AI solo admite la inferencia en modelos previamente entrenados, Cloudflare dice que ha desarrollado un servicio de base de datos vectorial llamado Vectorize para facilitar que los modelos ML pasen los datos de los clientes a los usuarios.

Por ejemplo, para un chatbot, un cliente podría cargar su catálogo de productos en la base de datos vectorial, desde donde el modelo lo convertiría en un activo integrado.

La idea parece ser que, si bien el modelo Llama 2 ofrecido por Cloudflare puede no tener un conocimiento específico de los datos de un cliente, el chatbot aún puede mostrar información relevante al vincularse al servicio de base de datos. Según Cloudflare, este enfoque hace la inferencia es más accesible, más rápida y requiere menos recursos porque desacopla los datos del cliente del modelo mismo.

Además de Workers AI y Vectorize, la suite de inteligencia artificial de Cloudflare también incluye una plataforma para monitorear, optimizar y administrar cargas de trabajo de inferencia a escala.

Apodado AI Gateway, el servicio aplica varias funciones típicamente asociadas con redes de entrega de contenido y servidores proxy web, como almacenamiento en caché y limitación de velocidad, a la inferencia de IA para ayudar a los clientes a controlar los costos.

"Al almacenar en caché las respuestas de IA utilizadas con frecuencia, se reduce la latencia y se refuerza la confiabilidad del sistema, mientras que la limitación de velocidad garantiza una asignación eficiente de recursos, mitigando los desafíos de los crecientes costos de la IA", explica la compañía en la publicación del blog.

Precios y disponibilidad

Cloudflare señala que el servicio aún se encuentra en las primeras etapas de implementación, con siete sitios en línea en la actualidad. Sin embargo, la compañía está implementando GPU para llevar el servicio a 100 puntos de presencia para fin de año y “casi en todas partes” para fines de 2024.

Como resultado de esto, no recomienda implementar aplicaciones de producción en Workers AI por el momento, describiéndola como una "beta temprana".

"Lo que publicamos hoy es sólo una pequeña vista previa para darle una idea de lo que está por venir", se lee en la publicación del blog.

Como de costumbre, Cloudflare dice que no facturará el servicio el primer día. Dicho esto, espera cobrar alrededor de un centavo por cada mil “neuronas de contracción regular” y 0.125 dólares por cada mil “neuronas de contracción rápida”. La diferencia entre los dos es que el último prioriza la proximidad al usuario final, mientras que el menos costoso de los dos se ejecuta en cualquier lugar donde Cloudflare tenga exceso de capacidad.

Las neuronas son una forma de medir la producción de IA, explicó la compañía, y agregó que mil neuronas son suficientes para aproximadamente 130 respuestas LLM, 830 clasificaciones de imágenes o 1,250 incrustaciones ®.