Intuitivo atteint un débit plus élevé tout en économisant sur les coûts d'IA/ML grâce à AWS Inferentia et PyTorch

Republié par Platon

Suiveurs: 0

Il s'agit d'un article invité de Jose Benitez, fondateur et directeur d'AI et de Mattias Ponchon, responsable de l'infrastructure chez Intuitivo.

Intuitivo, pionnier de l'innovation dans le commerce de détail, révolutionne le shopping avec son système de traitement transactionnel basé sur l'IA et l'apprentissage automatique (AI/ML) basé sur le cloud. Cette technologie révolutionnaire nous permet d’exploiter simultanément des millions de points d’achat autonomes (A-POP), transformant ainsi la façon dont les clients font leurs achats. Notre solution surpasse les distributeurs automatiques traditionnels et les alternatives, offrant un avantage économique avec son coût dix fois moins cher, sa configuration facile et son fonctionnement sans entretien. Nos nouveaux A-POP (ou distributeurs automatiques) innovants offrent des expériences client améliorées à un coût dix fois inférieur en raison des avantages en termes de performances et de coûts. Inférence AWS livre. Inferentia nous a permis d'exécuter nos modèles de vision par ordinateur You Only Look Once (YOLO) cinq fois plus rapidement que notre solution précédente et prend en charge des expériences d'achat fluides et en temps réel pour nos clients. De plus, Inferentia nous a également aidé à réduire les coûts de 95 % par rapport à notre solution précédente. Dans cet article, nous couvrons notre cas d'utilisation, nos défis et un bref aperçu de notre solution utilisant Inferentia.

L’évolution du paysage du commerce de détail et le besoin d’A-POP

Le paysage de la vente au détail évolue rapidement et les consommateurs s'attendent aux mêmes expériences faciles à utiliser et fluides auxquelles ils sont habitués lors de leurs achats numériques. Pour combler efficacement le fossé entre le monde numérique et le monde physique et pour répondre aux besoins et attentes changeants des clients, une approche transformatrice est nécessaire. Chez Intuitivo, nous pensons que l'avenir du commerce de détail réside dans la création de points d'achat autonomes (A-POP) hautement personnalisés, alimentés par l'IA et basés sur la vision par ordinateur. Cette innovation technologique met les produits à portée de main des clients. Non seulement cela met les articles préférés des clients à portée de main, mais cela leur offre également une expérience d'achat fluide, sans longues files d'attente ni systèmes de traitement de transactions complexes. Nous sommes ravis de diriger cette nouvelle ère passionnante du commerce de détail.

Grâce à notre technologie de pointe, les détaillants peuvent déployer rapidement et efficacement des milliers d'A-POP. La mise à l'échelle a toujours été un défi de taille pour les détaillants, principalement en raison des complexités de logistique et de maintenance associées à l'expansion des distributeurs automatiques traditionnels ou d'autres solutions. Cependant, notre solution basée sur une caméra, qui élimine le besoin de capteurs de poids, de RFID ou d'autres capteurs coûteux, ne nécessite aucune maintenance et est nettement moins chère. Cela permet aux détaillants d'établir efficacement des milliers de A-POP, offrant ainsi aux clients une expérience d'achat inégalée tout en offrant aux détaillants une solution rentable et évolutive.

Utiliser l'inférence cloud pour l'identification des produits en temps réel

Lors de la conception d'un système de reconnaissance de produits et de paiement basé sur une caméra, nous avons dû décider si cela devait être effectué en périphérie ou dans le cloud. Après avoir envisagé plusieurs architectures, nous avons conçu un système qui télécharge des vidéos des transactions sur le cloud pour traitement.

Nos utilisateurs finaux démarrent une transaction en scannant le code QR de l'A-POP, ce qui déclenche le déverrouillage de l'A-POP, puis les clients récupèrent ce qu'ils veulent et partent. Des vidéos prétraitées de ces transactions sont téléchargées sur le cloud. Notre pipeline de transactions alimenté par l'IA traite automatiquement ces vidéos et facture le compte du client en conséquence.

Le schéma suivant montre l'architecture de notre solution.

Bénéficier d'une inférence hautes performances et rentable à l'aide d'AWS Inferentia

Alors que les détaillants cherchent à étendre leurs opérations, le coût des A-POP devient un facteur à prendre en compte. Dans le même temps, il est primordial d’offrir aux utilisateurs finaux une expérience d’achat fluide et en temps réel. Notre équipe de recherche IA/ML se concentre sur l’identification des meilleurs modèles de vision par ordinateur (CV) pour notre système. Nous étions maintenant confrontés au défi de savoir comment optimiser simultanément les opérations IA/ML en termes de performances et de coûts.

Nous déployons nos modèles sur Instances Amazon EC2 Inf1 optimisé par Inferentia, le premier silicium ML d'Amazon conçu pour accélérer les charges de travail d'inférence d'apprentissage profond. Il a été démontré que l'inférence réduit considérablement les coûts d'inférence. Nous avons utilisé le Neurone AWS SDK (un ensemble d'outils logiciels utilisés avec Inferentia) pour compiler et optimiser nos modèles en vue d'un déploiement sur des instances EC2 Inf1.

L'extrait de code qui suit montre comment compiler un modèle YOLO avec Neuron. Le code fonctionne de manière transparente avec PyTorch et des fonctions telles que torch.jit.trace() et neuron.trace() enregistrent les opérations du modèle sur un exemple d'entrée lors de la passe avant pour créer un graphique IR statique.

from ultralytics import YOLO
import torch_neuronx
import torch batch_size = 1
imgsz = (640, 640)
im = torch.zeros(batch_size, 3, *imgsz).to('cpu')  # mock input # Compiler options
half = True  # fp16
fp8 = False
dynamic = False  # dynamic batch f = 'yolov8n.neuronx'  # output model name
neuronx_cc_args = ['--auto-cast', 'none'] if half:
    neuronx_cc_args = ['--auto-cast', 'all', '--auto-cast-type', 'fp16']
elif fp8:
    neuronx_cc_args = ['--auto-cast', 'all', '--auto-cast-type', 'fp8_e4m3'] model = torch.load('yolov8n.pt')['model']
model.eval()
model.float()
model = model.fuse()
neuronx_model = torch_neuronx.trace(
    model,
    example_inputs=im,
    compiler_args=neuronx_cc_args,
) if dynamic:
    neuronx_model = torch_neuronx.dynamic_batch(neuronx_model) neuronx_model.save(f)

Nous avons migré nos modèles gourmands en calcul vers Inf1. En utilisant AWS Inferentia, nous avons atteint le débit et les performances nécessaires pour répondre aux besoins de notre entreprise. L'adoption d'instances Inf1 basées sur Inferentia dans le cycle de vie MLOps a été essentielle pour obtenir des résultats remarquables :

Amélioration des performances: Nos grands modèles de vision par ordinateur fonctionnent désormais cinq fois plus rapidement, atteignant plus de 120 images par seconde (FPS), permettant ainsi à nos clients de bénéficier d'expériences d'achat fluides et en temps réel. De plus, la capacité de traiter à cette fréquence d'images améliore non seulement la vitesse des transactions, mais nous permet également d'introduire plus d'informations dans nos modèles. Cette augmentation de la saisie de données améliore considérablement la précision de la détection des produits dans nos modèles, renforçant ainsi l'efficacité globale de nos systèmes d'achat.
Les économies de coûts: Nous avons réduit les coûts d'inférence. Cela a considérablement amélioré la conception de l'architecture prenant en charge nos A-POP.

L'inférence parallèle de données était facile avec le SDK AWS Neuron

Pour améliorer les performances de nos charges de travail d'inférence et extraire des performances maximales d'Inferentia, nous souhaitions utiliser tous les NeuronCores disponibles dans l'accélérateur Inferentia. Atteindre ces performances a été facile grâce aux outils et API intégrés du SDK Neuron. Nous avons utilisé le torch.neuron.DataParallel() API. Nous utilisons actuellement inf1.2xlarge qui possède un accélérateur Inferentia avec quatre accélérateurs Neuron. Nous utilisons donc torch.neuron.DataParallel() pour utiliser pleinement le matériel Inferentia et utiliser tous les NeuronCores disponibles. Cette fonction Python implémente le parallélisme des données au niveau du module sur les modèles créés par l'API PyTorch Neuron. Le parallélisme des données est une forme de parallélisation sur plusieurs appareils ou cœurs (NeuronCores pour Inferentia), appelés nœuds. Chaque nœud contient le même modèle et les mêmes paramètres, mais les données sont réparties entre les différents nœuds. En distribuant les données sur plusieurs nœuds, le parallélisme des données réduit le temps total de traitement des entrées de lots de grande taille par rapport au traitement séquentiel. Le parallélisme des données fonctionne mieux pour les modèles d'applications sensibles à la latence et qui ont des exigences de taille de lot importante.

Regard vers l'avenir : accélérer la transformation du commerce de détail avec des modèles de base et un déploiement évolutif

Alors que nous nous tournons vers l’avenir, l’impact des modèles de fondation sur le secteur de la vente au détail ne peut être surestimé. Les modèles de base peuvent faire une différence significative dans l’étiquetage des produits. La capacité d’identifier et de catégoriser rapidement et précisément différents produits est cruciale dans un environnement de vente au détail en évolution rapide. Avec les modèles modernes basés sur des transformateurs, nous pouvons déployer une plus grande diversité de modèles pour répondre à davantage de nos besoins en IA/ML avec une plus grande précision, améliorant ainsi l'expérience des utilisateurs et sans avoir à perdre du temps et de l'argent à former des modèles à partir de zéro. En exploitant la puissance des modèles de base, nous pouvons accélérer le processus d'étiquetage, permettant ainsi aux détaillants de faire évoluer leurs solutions A-POP plus rapidement et plus efficacement.

Nous avons commencé à mettre en œuvre Segmenter n'importe quel modèle (SAM), un modèle de base de transformateur de vision qui peut segmenter n'importe quel objet dans n'importe quelle image (nous en discuterons plus en détail dans un autre article de blog). SAM nous permet d’accélérer notre processus d’étiquetage avec une rapidité inégalée. SAM est très efficace, capable de traiter environ 62 fois plus d'images qu'un humain ne peut créer manuellement des cadres de délimitation dans le même laps de temps. Les résultats de SAM sont utilisés pour former un modèle qui détecte les masques de segmentation dans les transactions, ouvrant ainsi une fenêtre d'opportunité pour traiter des millions d'images de manière exponentielle plus rapidement. Cela réduit considérablement le temps et les coûts de formation pour les modèles de planogrammes de produits.

Nos équipes de recherche produits et IA/ML sont ravies d’être à l’avant-garde de cette transformation. Le partenariat continu avec AWS et notre utilisation d'Inferentia dans notre infrastructure garantiront que nous pouvons déployer ces modèles de base de manière rentable. En tant que premiers utilisateurs, nous travaillons avec les nouvelles instances basées sur AWS Inferentia 2. Les instances Inf2 sont conçues pour l'accélération de l'inférence de l'IA générative et des grands modèles de langage (LLM) d'aujourd'hui, offrant ainsi des performances supérieures et des coûts réduits. Inf2 nous permettra de permettre aux détaillants d'exploiter les avantages des technologies basées sur l'IA sans se ruiner, rendant ainsi le paysage de la vente au détail plus innovant, efficace et centré sur le client.

Alors que nous continuons à migrer davantage de modèles vers Inferentia et Inferentia2, y compris des modèles fondamentaux basés sur des transformateurs, nous sommes convaincus que notre alliance avec AWS nous permettra de croître et d'innover aux côtés de notre fournisseur cloud de confiance. Ensemble, nous remodelerons l’avenir du commerce de détail, en le rendant plus intelligent, plus rapide et plus adapté aux besoins en constante évolution des consommateurs.

Conclusion

Dans cette traversée technique, nous avons mis en évidence notre parcours de transformation en utilisant AWS Inferentia pour son système innovant de traitement transactionnel AI/ML. Ce partenariat a permis de multiplier par cinq la vitesse de traitement et de réduire de 95 % les coûts d'inférence par rapport à notre solution précédente. Il a changé l'approche actuelle du secteur de la vente au détail en facilitant une expérience d'achat fluide et en temps réel.

Si vous souhaitez en savoir plus sur la façon dont Inferentia peut vous aider à réduire les coûts tout en optimisant les performances de vos applications d'inférence, visitez le Instances Amazon EC2 Inf1 et les Instances Amazon EC2 Inf2 pages produits. AWS fournit divers exemples de codes et ressources de démarrage pour le SDK Neuron que vous pouvez trouver sur le Référentiel d'échantillons de neurones.

À propos des auteurs

Matias Ponchon est le responsable de l'infrastructure chez Intuitivo. Il se spécialise dans l’architecture d’applications sécurisées et robustes. Sa vaste expérience dans les entreprises FinTech et Blockchain, associée à son esprit stratégique, l'aide à concevoir des solutions innovantes. Il est profondément attaché à l'excellence, c'est pourquoi il propose constamment des solutions résilientes qui repoussent les limites du possible.

José Benitez est le fondateur et directeur de l'IA chez Intuitivo, spécialisé dans le développement et la mise en œuvre d'applications de vision par ordinateur. Il dirige une équipe talentueuse d’apprentissage automatique, favorisant un environnement d’innovation, de créativité et de technologie de pointe. En 2022, Jose a été reconnu comme « Innovateur de moins de 35 ans » par le MIT Technology Review, un témoignage de ses contributions révolutionnaires dans le domaine. Ce dévouement s'étend au-delà des distinctions et dans chaque projet qu'il entreprend, démontrant un engagement incessant envers l'excellence et l'innovation.

Diwakar Bansal est un spécialiste senior AWS axé sur le développement commercial et la mise sur le marché des services informatiques accélérés Gen AI et Machine Learning. Auparavant, Diwakar a dirigé la définition de produits, le développement commercial mondial et la commercialisation de produits technologiques pour l'IoT, l'Edge Computing et la conduite autonome, en se concentrant sur l'intégration de l'IA et de l'apprentissage automatique dans ces domaines.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/intuitivo-achieves-higher-throughput-while-saving-on-ai-ml-costs-using-aws-inferentia-and-pytorch/

Horodatage: 26 octobre 2023

Horodatage: 18 mai 2023

Intuitivo atteint un débit plus élevé tout en économisant sur les coûts d'IA/ML grâce à AWS Inferentia et PyTorch | Services Web Amazon

Republié par Platon

L’évolution du paysage du commerce de détail et le besoin d’A-POP

Utiliser l'inférence cloud pour l'identification des produits en temps réel

Bénéficier d'une inférence hautes performances et rentable à l'aide d'AWS Inferentia

L'inférence parallèle de données était facile avec le SDK AWS Neuron

Regard vers l'avenir : accélérer la transformation du commerce de détail avec des modèles de base et un déploiement évolutif

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Créez des échantillons de données aléatoires et stratifiés avec Amazon SageMaker Data Wrangler

Améliorez le raisonnement multi-sauts dans les LLM en apprenant à partir de commentaires humains riches

Comment xarvio Digital Farming Solutions accélère son développement avec les capacités géospatiales d'Amazon SageMaker

T-Mobile US, Inc. utilise l'intelligence artificielle via Amazon Transcribe et Amazon Translate pour fournir des messages vocaux dans la langue de choix de ses clients | Services Web Amazon

Améliorez l'expérience de l'appelant avec des conseils dans Amazon Lex

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte