Cloudflare laisse l'IA s'affranchir de la périphérie du réseau

Cloudflare laisse l'IA s'affranchir de la périphérie du réseau

Nœud source: 2906199

Les modèles d'IA générative peuvent être formés dans des clusters massifs de GPU, mais Cloudflare affirme que l'endroit évident pour les exécuter n'est pas seulement à la périphérie mais dans le réseau lui-même.

Mercredi, le géant de la livraison annoncé une suite de services d'IA visant à éliminer la complexité du déploiement et de l'exécution de modèles en langage étendu (LLM) et d'autres algorithmes d'apprentissage automatique (ML), tout en obtenant la latence la plus faible possible.

En fait, la latence la plus faible possible serait obtenue en exécutant la charge de travail d'inférence sur l'appareil de l'utilisateur. Intel en a fait toute une histoire, vantant l'essor de la génération AI PC, la semaine dernière chez Intel Innovation. Mais même si cela peut avoir du sens dans certains cas, Cloudflare affirme que les appareils locaux ne sont pas encore assez puissants.

« Cela fait du réseau la boucle d’or de l’inférence. Pas trop loin, avec une puissance de calcul suffisante – juste ce qu’il faut », écrit le business.

Sans serveur pour les GPU

La suite AI comprend trois services principaux. Le premier d’entre eux est une extension de sa plate-forme Workers sans serveur pour prendre en charge les charges de travail accélérées par GPU. Surnommé Workers AI, le service est conçu pour rationaliser le processus de déploiement de modèles pré-entraînés.

« Aucune expertise en apprentissage automatique, aucune recherche de GPU. Choisissez simplement l’un des modèles proposés et c’est parti », affirme Cloudflare.

On nous dit que la plate-forme fonctionne sur des GPU Nvidia, bien que Cloudflare ne nous dise pas lesquels. "La technologie développée par Cloudflare peut diviser une tâche d'inférence sur plusieurs GPU différents, car nous nous occupons de la planification et du système, et nous déciderons quelle ou quelles puces sont les plus logiques pour y parvenir", a-t-il déclaré. Le registre dans un communiqué.

Dans un souci de simplicité, la plate-forme ne prend pas en charge, du moins pas au début, les modèles fournis par le client. On nous a dit qu'il prévoyait de déployer cette fonctionnalité à l'avenir, mais, pour l'instant, il est limité à six modèles pré-entraînés, qui comprennent :

  • Meta's Llama 2 7B Int8 pour la génération de texte
  • M2m100-1.2 de Meta pour la traduction
  • Whisper d'OpenAI pour la reconnaissance vocale
  • Distilbert-sst-2-int8 de Hugging Face pour la classification de texte
  • Resnet-50 de Microsoft pour la classification des images
  • bge-base-en-v1.5 de Baai pour les intégrations

Cependant, Cloudflare affirme qu'il s'efforce d'élargir cette liste dans un avenir proche. Comme beaucoup d’espoirs en IA, il a sollicité l'aide de Hugging Face pour optimiser des modèles supplémentaires pour le service.

Il n'est pas clair s'il existe une limite à la taille des modèles que la plate-forme peut prendre en charge, mais la liste initiale offre quelques indices. Cloudflare rend disponible le Llama 2 LLM de sept milliards de paramètres de Meta fonctionnant sur Int8, ce qui nécessiterait environ 7 Go de mémoire GPU. La société note également que « si vous souhaitez exécuter des versions de modèles comportant des centaines de milliards de paramètres, le cloud centralisé sera mieux adapté à votre charge de travail ».

Une fois opérationnel, Cloudflare indique que les clients peuvent intégrer le service dans leurs applications à l'aide d'API REST ou en le liant à l'interface de leur site Web Pages.

Mettre le tout ensemble

Étant donné que Workers AI ne prend en charge l'inférence que sur des modèles pré-entraînés, Cloudflare indique avoir développé un service de base de données vectorielle appelé Vectorize pour permettre aux modèles ML de transmettre plus facilement les données client aux utilisateurs.

Par exemple, pour un chatbot, un client peut télécharger son catalogue de produits dans la base de données vectorielle, à partir de laquelle le modèle le convertira en actif intégré.

L'idée semble être que, même si le modèle Llama 2 proposé par Cloudflare n'a pas de connaissance spécifique des données d'un client, le chatbot peut toujours faire apparaître des informations pertinentes en se connectant au service de base de données. Selon Cloudflare, cette approche fait l'inférence est plus accessible, plus rapide et moins gourmande en ressources, car elle dissocie les données client du modèle lui-même.

Outre Workers AI et Vectorize, la suite d'IA de Cloudflare comprend également une plate-forme pour surveiller, optimiser et gérer les charges de travail d'inférence à grande échelle.

Baptisé AI Gateway, le service applique plusieurs fonctionnalités généralement associées aux réseaux de diffusion de contenu et aux proxys Web, telles que la mise en cache et la limitation de débit, à l'inférence de l'IA afin d'aider les clients à contrôler les coûts.

"En mettant en cache les réponses de l'IA fréquemment utilisées, il réduit la latence et renforce la fiabilité du système, tandis que la limitation du débit garantit une allocation efficace des ressources, atténuant ainsi les défis liés à la spirale des coûts de l'IA", explique la société dans le blog.

Prix ​​et disponibilité

Cloudflare note que le service en est encore aux premiers stades de déploiement, avec sept sites en ligne aujourd'hui. L’entreprise déploie cependant des GPU pour porter le service à 100 points de présence d’ici la fin de l’année et « presque partout » d’ici fin 2024.

En conséquence, il ne recommande pas encore de déployer des applications de production sur Workers AI, le décrivant comme une « version bêta précoce ».

"Ce que nous avons publié aujourd'hui n'est qu'un petit aperçu pour vous donner un avant-goût de ce qui s'en vient", peut-on lire sur le blog.

Comme d'habitude, Cloudflare indique qu'il ne facturera pas le service dès le premier jour. Cela dit, il prévoit de facturer environ un centime pour mille « neurones à contraction régulière » et 0.125 $ pour mille « neurones à contraction rapide ». La différence entre les deux est que ce dernier donne la priorité à la proximité de l'utilisateur final, tandis que le moins cher des deux fonctionne partout où Cloudflare a une capacité excédentaire.

Les neurones sont un moyen de mesurer les résultats de l'IA, a expliqué la société, ajoutant qu'un millier de neurones suffisent pour environ 130 réponses LLM, 830 classifications d'images ou 1,250 XNUMX intégrations ®.

Horodatage:

Plus de Le registre