Cloudflare laisse l'IA s'affranchir de la périphérie du réseau

Republié par Platon

Suiveurs: 0

Les modèles d'IA générative peuvent être formés dans des clusters massifs de GPU, mais Cloudflare affirme que l'endroit évident pour les exécuter n'est pas seulement à la périphérie mais dans le réseau lui-même.

Mercredi, le géant de la livraison annoncé une suite de services d'IA visant à éliminer la complexité du déploiement et de l'exécution de modèles en langage étendu (LLM) et d'autres algorithmes d'apprentissage automatique (ML), tout en obtenant la latence la plus faible possible.

En fait, la latence la plus faible possible serait obtenue en exécutant la charge de travail d'inférence sur l'appareil de l'utilisateur. Intel en a fait toute une histoire, vantant l'essor de la génération AI PC, la semaine dernière chez Intel Innovation. Mais même si cela peut avoir du sens dans certains cas, Cloudflare affirme que les appareils locaux ne sont pas encore assez puissants.

« Cela fait du réseau la boucle d’or de l’inférence. Pas trop loin, avec une puissance de calcul suffisante – juste ce qu’il faut », écrit le business.

Sans serveur pour les GPU

La suite AI comprend trois services principaux. Le premier d’entre eux est une extension de sa plate-forme Workers sans serveur pour prendre en charge les charges de travail accélérées par GPU. Surnommé Workers AI, le service est conçu pour rationaliser le processus de déploiement de modèles pré-entraînés.

« Aucune expertise en apprentissage automatique, aucune recherche de GPU. Choisissez simplement l’un des modèles proposés et c’est parti », affirme Cloudflare.

On nous dit que la plate-forme fonctionne sur des GPU Nvidia, bien que Cloudflare ne nous dise pas lesquels. "La technologie développée par Cloudflare peut diviser une tâche d'inférence sur plusieurs GPU différents, car nous nous occupons de la planification et du système, et nous déciderons quelle ou quelles puces sont les plus logiques pour y parvenir", a-t-il déclaré. Le registre dans un communiqué.

Dans un souci de simplicité, la plate-forme ne prend pas en charge, du moins pas au début, les modèles fournis par le client. On nous a dit qu'il prévoyait de déployer cette fonctionnalité à l'avenir, mais, pour l'instant, il est limité à six modèles pré-entraînés, qui comprennent :

Meta's Llama 2 7B Int8 pour la génération de texte
M2m100-1.2 de Meta pour la traduction
Whisper d'OpenAI pour la reconnaissance vocale
Distilbert-sst-2-int8 de Hugging Face pour la classification de texte
Resnet-50 de Microsoft pour la classification des images
bge-base-en-v1.5 de Baai pour les intégrations

Cependant, Cloudflare affirme qu'il s'efforce d'élargir cette liste dans un avenir proche. Comme beaucoup d’espoirs en IA, il a sollicité l'aide de Hugging Face pour optimiser des modèles supplémentaires pour le service.

Il n'est pas clair s'il existe une limite à la taille des modèles que la plate-forme peut prendre en charge, mais la liste initiale offre quelques indices. Cloudflare rend disponible le Llama 2 LLM de sept milliards de paramètres de Meta fonctionnant sur Int8, ce qui nécessiterait environ 7 Go de mémoire GPU. La société note également que « si vous souhaitez exécuter des versions de modèles comportant des centaines de milliards de paramètres, le cloud centralisé sera mieux adapté à votre charge de travail ».

Une fois opérationnel, Cloudflare indique que les clients peuvent intégrer le service dans leurs applications à l'aide d'API REST ou en le liant à l'interface de leur site Web Pages.

Mettre le tout ensemble

Étant donné que Workers AI ne prend en charge l'inférence que sur des modèles pré-entraînés, Cloudflare indique avoir développé un service de base de données vectorielle appelé Vectorize pour permettre aux modèles ML de transmettre plus facilement les données client aux utilisateurs.

Par exemple, pour un chatbot, un client peut télécharger son catalogue de produits dans la base de données vectorielle, à partir de laquelle le modèle le convertira en actif intégré.

L'idée semble être que, même si le modèle Llama 2 proposé par Cloudflare n'a pas de connaissance spécifique des données d'un client, le chatbot peut toujours faire apparaître des informations pertinentes en se connectant au service de base de données. Selon Cloudflare, cette approche fait l'inférence est plus accessible, plus rapide et moins gourmande en ressources, car elle dissocie les données client du modèle lui-même.

Outre Workers AI et Vectorize, la suite d'IA de Cloudflare comprend également une plate-forme pour surveiller, optimiser et gérer les charges de travail d'inférence à grande échelle.

Baptisé AI Gateway, le service applique plusieurs fonctionnalités généralement associées aux réseaux de diffusion de contenu et aux proxys Web, telles que la mise en cache et la limitation de débit, à l'inférence de l'IA afin d'aider les clients à contrôler les coûts.

"En mettant en cache les réponses de l'IA fréquemment utilisées, il réduit la latence et renforce la fiabilité du système, tandis que la limitation du débit garantit une allocation efficace des ressources, atténuant ainsi les défis liés à la spirale des coûts de l'IA", explique la société dans le blog.

Prix et disponibilité

Cloudflare note que le service en est encore aux premiers stades de déploiement, avec sept sites en ligne aujourd'hui. L’entreprise déploie cependant des GPU pour porter le service à 100 points de présence d’ici la fin de l’année et « presque partout » d’ici fin 2024.

En conséquence, il ne recommande pas encore de déployer des applications de production sur Workers AI, le décrivant comme une « version bêta précoce ».

"Ce que nous avons publié aujourd'hui n'est qu'un petit aperçu pour vous donner un avant-goût de ce qui s'en vient", peut-on lire sur le blog.

Comme d'habitude, Cloudflare indique qu'il ne facturera pas le service dès le premier jour. Cela dit, il prévoit de facturer environ un centime pour mille « neurones à contraction régulière » et 0.125 $ pour mille « neurones à contraction rapide ». La différence entre les deux est que ce dernier donne la priorité à la proximité de l'utilisateur final, tandis que le moins cher des deux fonctionne partout où Cloudflare a une capacité excédentaire.

Les neurones sont un moyen de mesurer les résultats de l'IA, a expliqué la société, ajoutant qu'un millier de neurones suffisent pour environ 130 réponses LLM, 830 classifications d'images ou 1,250 XNUMX intégrations ®.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

Horodatage: 28 septembre 2023

Plus de Le registre

La vision par ordinateur est-elle le remède contre les fusillades dans les écoles ? Probablement pas

Cluster source:

Cluster source:

Le registre

Nœud source: 2631792

Horodatage: 4 mai 2023

Toyota reprend les bus paralympiques autonomes après qu'un véhicule a heurté un concurrent de judo, l'ayant forcé à quitter le match

Cluster source:

Le registre

Nœud source: 1170849

Horodatage: 30 août 2021

Republié par Platon

La vision par ordinateur est-elle le remède contre les fusillades dans les écoles ? Probablement pas

Boffins convertit les sons de frappe en texte avec une précision de 95 %

C'est votre orgueil humain qui freine l'acceptation de l'IA

Ajouter de l'IA à tout n'aura de sens que si nous pouvons l'utiliser pour quoi que ce soit

OpenAI poursuivi après que ChatGPT a faussement affirmé qu'un homme avait détourné de l'argent

Les agents du centre d'appels AI de Google prennent tous leur matinée

Je ne peux pas faire ça, Dave : l'IA noie les meilleurs magazines de science-fiction avec des soumissions d'histoires

Il n'y a tout simplement pas assez de médecins. Alors, pouvons-nous compter sur une technologie de santé plus intelligente ?

Le PDG d'IBM explique pourquoi il a déchargé Watson Health : Pas assez d'expertise dans le domaine

La course aux armements d'aujourd'hui tourne autour de l'IA et c'est la Chine contre l'Amérique, déclare le secrétaire américain à la Défense

Les chiens de garde des monopoles américains et britanniques sondent l'IA pour s'assurer que nous ne nous faisons pas avoir

Toyota reprend les bus paralympiques autonomes après qu'un véhicule a heurté un concurrent de judo, l'ayant forcé à quitter le match

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte

Sans serveur pour les GPU

Mettre le tout ensemble

Prix ​​et disponibilité

Plus de Le registre

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte

Prix et disponibilité