Développer un service d'inspection automatique des images de révision avec Amazon SageMaker

Republié par Platon

Suiveurs: 0

Ceci est un article invité de Jihye Park, Data Scientist chez MUSINSA.

MUSINSA est l'une des plus grandes plateformes de mode en ligne en Corée du Sud, desservant 8.4 millions de clients et vendant 6,000 4 marques de mode. Notre trafic mensuel d'utilisateurs atteint 90M, et plus de XNUMX% de notre démographie se compose d'adolescents et de jeunes adultes sensibles aux tendances de la mode. MUSINSA est une plate-forme leader dans le pays, leader avec des quantités massives de données.

L'équipe de solution de données MUSINSA s'occupe de tout ce qui concerne les données collectées à partir du magasin MUSINSA. Nous effectuons un développement complet de la pile, de la collecte de journaux à la modélisation des données et au service de modèles. Nous développons divers produits basés sur des données, y compris le service de recommandation de produits en direct sur la page principale de notre application et le service de mise en évidence des mots clés qui détecte et met en évidence des mots tels que "taille" ou "niveau de satisfaction" à partir de critiques de texte.

Défis dans le processus d'inspection d'image d'examen automatisé

La qualité et la quantité des avis clients sont essentielles pour les entreprises de commerce électronique, car les clients prennent des décisions d'achat sans voir les produits en personne. Nous accordons des crédits à ceux qui écrivent des critiques d'images sur les produits qu'ils ont achetés (c'est-à-dire des critiques avec des photos des produits ou des photos d'eux portant/utilisant les produits) pour améliorer l'expérience client et augmenter le taux de conversion des achats. Pour déterminer si les photos soumises répondent à nos critères de crédits, toutes les photos sont inspectées individuellement par des humains. Par exemple, nos critères stipulent qu'une « revue de style » doit contenir des photos montrant tout le corps d'une personne portant/utilisant le produit, tandis qu'une « revue de produit » doit fournir une photo complète du produit. Les images suivantes montrent des exemples d'examen de produit et d'examen de style. Le consentement des téléchargeurs a été accordé pour l'utilisation des photos.

Exemples d'examen de produit.

Exemples de révision de style.

Plus de 20,000 XNUMX photos sont téléchargées quotidiennement sur la plateforme MUSINSA Store qui nécessitent une inspection. Le processus d'inspection classe les images en « emballage », « produit », « pleine longueur » ou « demi-longueur ». Le processus d'inspection d'image est entièrement manuel, il prenait donc énormément de temps et les classifications sont souvent effectuées différemment par différentes personnes, même avec les directives. Face à ce défi, nous avons utilisé Amazon Sage Maker pour automatiser cette tâche.

Amazon SageMaker est un service entièrement géré pour la création, la formation et le déploiement de modèles d'apprentissage automatique (ML) pour tous les cas d'utilisation avec une infrastructure, des outils et des flux de travail entièrement gérés. Cela nous a permis de mettre en œuvre rapidement le service d'inspection d'image automatisé avec de bons résultats.

Nous expliquerons en détail comment nous avons résolu nos problèmes à l'aide de modèles ML et utilisé Amazon SageMaker en cours de route.

Automatisation du processus d'inspection des images d'examen

La première étape vers l'automatisation du processus d'inspection d'examen d'image consistait à étiqueter manuellement les images, les faisant ainsi correspondre aux catégories et critères d'inspection appropriés. Par exemple, nous avons classé les images en « photo du corps entier », « photo du haut du corps », « photo de l'emballage », « photo du produit », etc. De même, dans le cas d'une revue de style, des crédits ont été attribués pour une photo du corps entier.

En ce qui concerne la classification des images, nous dépendions largement d'un modèle de réseau de neurones convolutionnels (CNN) pré-formé en raison du volume considérable d'images d'entrée nécessaires pour former notre modèle. Bien que la définition et la catégorisation des caractéristiques significatives des images soient toutes deux essentielles à la formation d'un modèle, une image peut avoir un nombre illimité de caractéristiques. Par conséquent, l'utilisation du modèle CNN était la plus logique, et nous avons pré-formé notre modèle avec plus de 10,000 XNUMX ensembles de données ImageNet, puis nous avons utilisé l'apprentissage par transfert. Cela signifiait que notre modèle pourrait être formé plus efficacement avec nos étiquettes d'image plus tard.

Collection d'images avec Amazon SageMaker Ground Truth

Cependant, l'apprentissage par transfert avait ses propres limites, car un modèle doit être nouvellement formé sur des couches supérieures. Cela signifie qu'il a constamment besoin d'images d'entrée. D'un autre côté, cette méthode fonctionnait bien et nécessitait moins d'images d'entrée lorsqu'elle était entraînée sur des couches entières. Il a facilement identifié les caractéristiques des images de ces couches car il avait déjà été formé avec une quantité massive de données. Chez MUSINSA, toute notre infrastructure fonctionne sur AWS et nous stockons les photos téléchargées par les clients dans Service de stockage simple Amazon (S3). Nous avons classé ces images dans différents dossiers en fonction des étiquettes que nous avons définies, et nous avons utilisé Amazon SageMaker Ground Truth pour les raisons suivantes :

Des résultats plus cohérents – Dans les processus manuels, l'erreur d'un seul inspecteur pourrait être introduite dans la formation du modèle sans aucune intervention. Avec SageMaker Ground Truth, nous pouvions demander à plusieurs inspecteurs d'examiner la même image et de nous assurer que les entrées de l'inspecteur le plus digne de confiance étaient mieux notées pour l'étiquetage de l'image, conduisant ainsi à des résultats plus fiables.
Moins de travail manuel – L'étiquetage automatisé des données SageMaker Ground Truth peut être appliqué avec un seuil de score de confiance afin que toutes les images qui ne peuvent pas être étiquetées par machine en toute confiance soient envoyées pour étiquetage humain. Cela garantit le meilleur équilibre entre coût et précision. Plus d'informations sont disponibles dans le Guide du développeur Amazon SageMaker Ground Truth.
En utilisant cette méthode, nous avons réduit de 43 % le nombre d'images classées manuellement. Le tableau suivant montre le nombre d'images traitées par itération après l'adoption de Ground Truth (notez que les données de formation et de validation sont des données accumulées, tandis que les autres mesures sont sur une base par itération).
Charger directement les résultats – Lors de la création de modèles dans SageMaker, nous pourrions charger les fichiers manifestes résultants générés par SageMaker Ground Truth et les utiliser pour la formation.

En résumé, la catégorisation de 10,000 22 images a nécessité 980 inspecteurs pendant cinq jours et coûté XNUMX $.

Développement d'un modèle de classification d'images avec Amazon SageMaker Studio

Nous devions classer les images d'examen en tant que photos du corps entier, photos du haut du corps, photos d'emballage, photos de produits et produits dans les catégories applicables. Pour atteindre nos objectifs, nous avons envisagé deux modèles : le modèle intégré SageMaker basé sur ResNet et le modèle MobileNet basé sur Tensorflow. Nous avons testé les deux sur les mêmes ensembles de données de test et avons constaté que le modèle intégré SageMaker était plus précis, avec un score F0.98 de 1 contre 0.88 du modèle TensorFlow. Par conséquent, nous avons opté pour le modèle intégré SageMaker.

Les Studio SageMakerLe processus de formation basé sur le modèle était le suivant :

Importer des images étiquetées depuis SageMaker Ground Truth
Prétraiter les images - redimensionner et augmenter l'image
Chargez le Modèle intégré Amazon SageMaker en tant qu'image Docker
Ajustez les hyperparamètres via la recherche de grille
Appliquer l'apprentissage par transfert
Réajustez les paramètres en fonction des métriques d'entraînement
Enregistrer le modèle

SageMaker a facilité la formation du modèle en un seul clic et sans se soucier de l'approvisionnement et de la gestion d'une flotte de serveurs pour la formation.

Pour la rotation d'hyperparamètres, nous avons utilisé la recherche de grille pour déterminer les valeurs optimales des hyperparamètres, comme le nombre de couches d'entraînement (num_layers) et cycles de formation (epochs) pendant l'apprentissage par transfert avait affecté la précision de notre modèle de classification.

epochs_list = [5, 10, 15]
num_layers_list = [18, 34, 50] from sagemaker.analytics import TrainingJobAnalytics
metric_df = pd.DataFrame() for i in range(len(epochs_list)): for j in range(len(num_layers_list)): # hyperparameter settings ic.set_hyperparameters(num_layers=num_layers_list[j], use_pretrained_model=1, image_shape = "3,256,256", num_classes=9, num_training_samples=50399, mini_batch_size=128, epochs=epochs_list[i], learning_rate=0.01, precision_dtype='float32') ic.fit(inputs=data_channels, logs=True) latest_job_name = ic.latest_training_job.job_name job_metric = TrainingJobAnalytics(training_job_name=latest_job_name).dataframe() job_metric['epochs'] = epochs_list[i] job_metric['num_layers'] = num_layers_list[j] metric_df = pd.concat([metric_df, job_metric])

Modèle servi avec SageMaker Batch Transform et Apache Airflow

Le modèle de classification d'images que nous avons construit nécessitait des flux de travail ML pour déterminer si une image d'examen était qualifiée pour des crédits. Nous avons établi des flux de travail avec les quatre étapes suivantes.

Importer des images de révision et des métadonnées qui doivent être automatiquement révisées
Déduire les étiquettes des images (inférence)
Déterminer si des crédits doivent être accordés en fonction des étiquettes déduites
Stocker le tableau des résultats dans la base de données de production

Nous utilisons Flux d'air Apache pour gérer les workflows des produits de données. Il s'agit d'une plate-forme de planification et de surveillance des flux de travail développée par Airbnb connue pour ses graphiques d'interface utilisateur Web simples et intuitifs. Il prend en charge Amazon SageMaker, il migre donc facilement le code développé avec SageMaker Studio vers Apache Airflow. Il existe deux manières d'exécuter des tâches SageMaker sur Apache Airflow :

Utilisation des opérateurs Amazon SageMaker
En utilisant Opérateurs Python : écrivez une fonction Python avec Amazon SageMaker Python SDK sur Apache Airflow et importez-la en tant que paramètre appelable

def transform(dt, bucket, training_job, **kwargs): estimator = sagemaker.estimator.Estimator.attach(training_job) transformer = estimator.transformer(instance_count=1, instance_type='ml.m4.xlarge', output_path=f's3://{bucket}/.../dt={dt}', max_payload=1) transformer.transform(data=f's3://{bucket}/.../dt={dt}', data_type='S3Prefix', content_type='application/x-image', split_type='None') transformer.wait() … transform_op = PythonOperator( task_id='transform', dag=dag, provide_context=True, python_callable=transform, op_kwargs={"dt": dt, "bucket": bucket, "training_job": training_job})

La deuxième option nous permet maintenir notre Python existant codes que nous avions déjà sur SageMaker Studio, et cela ne nous a pas obligés à apprendre de nouvelles grammaires pour les opérateurs Amazon SageMaker.

Cependant, nous avons fait quelques essais et erreurs, car c'était la première fois que nous intégrions Apache Airflow à Amazon SageMaker. Les leçons que nous avons apprises étaient :

Mise à jour Boto3: Amazon SageMaker Python SDK version 2 requis Boto3 1.14.12 ou plus récent. Par conséquent, nous devions mettre à jour la version Boto3 de notre environnement Apache Airflow existant, qui était à 1.13.4.
Rôle IAM et héritage des autorisations: les rôles AWS IAM utilisés par Apache Airflow devaient hériter des rôles pouvant exécuter Amazon SageMaker.
Configuration du réseau: Pour exécuter les codes SageMaker avec Apache Airflow, ses points de terminaison devaient être configurés pour les connexions réseau. Les points de terminaison suivants étaient basés sur les régions et les services AWS que nous utilisions. Pour plus d'informations, consultez le Site Web AWS.
1. api.sagemaker.ap-northeast-2.amazonaws.com
2. runtime.sagemaker.ap-northeast-2.amazonaws.com
3. aws.sagemaker.ap-northeast-2.studio

Résultats

En automatisant les processus d'inspection des images de révision, nous avons obtenu les résultats commerciaux suivants :

Augmentation de l'efficacité du travail – Actuellement, 76 % des images des catégories où le service a été appliqué sont inspectées automatiquement avec une précision d'inspection de 98 %.
Cohérence dans l'attribution des crédits – Les crédits sont attribués sur la base de critères clairs. Cependant, il y a eu des occasions où les crédits ont été attribués différemment pour des cas similaires en raison de différences dans les jugements des inspecteurs. Le modèle ML applique des règles plus cohérentes et plus cohérentes dans l'application de nos politiques de crédit.
Réduction des erreurs humaines – Chaque engagement humain comporte un risque d'erreurs humaines. Par exemple, nous avons eu des cas où les critères de revue de style ont été utilisés pour les revues de produits. Notre modèle d'inspection automatique a considérablement réduit les risques de ces erreurs humaines.

Nous avons obtenu les avantages suivants spécifiquement en utilisant Amazon SageMaker pour automatiser le processus d'inspection d'image :

Établi un environnement où nous pouvons construire et tester des modèles grâce à des processus modulaires – Ce que nous avons le plus aimé d'Amazon SageMaker, c'est qu'il se compose de modules. Cela nous permet de créer et de tester des services facilement et rapidement. Nous avions évidemment besoin de temps pour en savoir plus sur Amazon SageMaker au début, mais une fois appris, nous pouvions facilement l'appliquer dans nos opérations. Nous pensons qu'Amazon SageMaker est idéal pour les entreprises nécessitant des développements de services rapides, comme dans le cas du magasin MUSINSA.
Collectez des données d'entrée fiables avec Amazon SageMaker Ground Truth – La collecte de données d'entrée devient de plus en plus importante que la modélisation elle-même dans le domaine du ML. Avec les progrès rapides du ML, les modèles pré-entraînés peuvent fonctionner bien mieux qu'auparavant, et sans réglage supplémentaire. AutoML a également supprimé la nécessité d'écrire des codes pour la modélisation ML. Par conséquent, la capacité à collecter des données d'entrée de qualité est plus importante que jamais, et l'utilisation de services d'étiquetage tels qu'Amazon SageMaker Ground Truth est essentielle.

Conclusion

À l'avenir, nous prévoyons d'automatiser non seulement la diffusion de modèles, mais également la formation de modèles via des lots automatiques. Nous voulons que notre modèle identifie automatiquement les hyperparamètres optimaux lorsque de nouvelles étiquettes ou images sont ajoutées. De plus, nous continuerons d'améliorer les performances de notre modèle, à savoir les rappels et la précision, sur la base de la méthode d'entraînement automatisé mentionnée précédemment. Nous augmenterons la couverture de notre modèle afin qu'il puisse inspecter plus d'images de révision, réduire davantage les coûts et atteindre des précisions plus élevées, ce qui conduira à une plus grande satisfaction de la clientèle.

Pour plus d'informations sur l'utilisation Amazon Sage Maker pour résoudre les problèmes de votre entreprise à l'aide du ML, consultez la page Web du produit. Et, comme toujours, restez au courant des dernières Actualités AWS Machine Learning ici.

Le contenu et les opinions de cet article sont ceux de l'auteur tiers et AWS n'est pas responsable du contenu ou de l'exactitude de cet article.

À propos des auteurs

Parc Jihye est Data Scientist chez MUSINSA, responsable de l'analyse et de la modélisation des données. Elle adore travailler avec des données omniprésentes telles que le commerce électronique. Son rôle principal est la modélisation des données, mais elle s'intéresse également à l'ingénierie des données.

Sungmin Kim est un architecte de solutions principal chez Amazon Web Services. Il travaille avec des startups pour concevoir, concevoir, automatiser et créer des solutions sur AWS pour leurs besoins commerciaux. Il est spécialisé dans l'IA/ML et l'analytique.