5 raisons pour lesquelles vous avez besoin de données synthétiques

5 raisons pour lesquelles vous avez besoin de données synthétiques

Nœud source: 1942868

5 raisons pour lesquelles vous avez besoin de données synthétiques
Données synthétiques générées à partir de Kubric
 

Pour entraîner un modèle d'apprentissage automatique, vous avez besoin de données. Les tâches de science des données ne sont généralement pas une compétition Kaggle où vous avez un grand ensemble de données organisé qui est pré-étiqueté. Parfois, vous devez collecter, organiser et nettoyer vos propres données. Ce processus de collecte et d'étiquetage des données dans le monde réel peut être long, fastidieux, coûteux, inexact et parfois dangereux. De plus, à la fin de ce processus, vous pouvez vous retrouver avec les données que vous avez rencontrées dans le monde réel qui ne sont pas nécessairement les données que vous souhaiteriez en termes de qualité, de diversité (par exemple, un déséquilibre de classe) et de quantité. Vous trouverez ci-dessous les problèmes courants que vous pouvez rencontrer lorsque vous travaillez avec des données réelles : 

  • La collecte et l'étiquetage des données réelles ne sont pas évolutifs
  • Étiqueter manuellement des données réelles peut parfois être impossible
  • Les données réelles ont des problèmes de confidentialité et de sécurité
  • Les données réelles ne sont pas programmables
  • Un modèle formé exclusivement sur des données réelles n'est pas assez performant (par exemple, vitesse de développement lente)

Heureusement, de tels problèmes peuvent être résolus avec des données synthétiques. Vous vous demandez peut-être, qu'est-ce que les données synthétiques? Les données synthétiques peuvent être définies comme des données générées artificiellement qui sont généralement créées à l'aide d'algorithmes qui simulent des processus réels, du comportement des autres usagers de la route jusqu'au comportement de la lumière lorsqu'elle interagit avec les surfaces. Cet article passe en revue les limites des données du monde réel et explique comment les données synthétiques peuvent aider à surmonter ces problèmes et à améliorer les performances du modèle. 

Pour les petits ensembles de données, il est généralement possible de collecter et d'étiqueter manuellement les données ; Cependant, de nombreuses tâches complexes d'apprentissage automatique nécessitent des ensembles de données massifs pour la formation. Par exemple, les modèles entraînés pour les applications de véhicules autonomes nécessitent de grandes quantités de données collectées à partir de capteurs attachés à des voitures ou des drones. Ce processus de collecte de données est lent et peut prendre des mois, voire des années. Une fois les données brutes collectées, elles doivent ensuite être annotées manuellement par des êtres humains, ce qui est également coûteux et chronophage. De plus, rien ne garantit que les données étiquetées qui reviennent seront utiles en tant que données de formation, car elles peuvent ne pas contenir d'exemples qui informent les lacunes actuelles du modèle dans les connaissances. 

[contenu intégré][contenu intégré]

L'étiquetage de ces données implique souvent que des humains dessinent à la main des étiquettes au-dessus des données des capteurs. Cela est très coûteux car les équipes ML bien rémunérées passent souvent une grande partie de leur temps à s'assurer que les étiquettes sont correctes et à renvoyer les erreurs aux étiqueteurs. L'un des principaux atouts des données synthétiques est que vous pouvez générer autant de données parfaitement étiquetées que vous le souhaitez. Tout ce dont vous avez besoin est un moyen de générer des données synthétiques de qualité. 

Logiciel open source pour générer des données synthétiques : Kubric (vidéos multi-objets avec masques de segmentation, cartes de profondeur et flux optique) et SDV (données tabulaires, relationnelles et chronologiques).

Certaines (parmi de nombreuses) entreprises qui vendent des produits ou créent des plates-formes pouvant générer des données synthétiques incluent Gretel.ai (ensembles de données synthétiques qui garantissent la confidentialité des données réelles), NVIDIA (omnivers), et Domaine parallèle (véhicules autonomes). Pour plus, voir la liste 2022 des sociétés de données synthétiques

5 raisons pour lesquelles vous avez besoin de données synthétiques
Image de Domaine parallèle
 

Il existe certaines données que les humains ne peuvent pas entièrement interpréter et étiqueter. Voici quelques cas d'utilisation où les données synthétiques sont la seule option : 

  • Estimation précise de la profondeur et flux optique à partir d'images uniques
  • Applications autonomes qui utilisent des données radar qui ne sont pas visibles à l'œil humain 
  • Générer des deep fakes qui peuvent être utilisés pour tester les systèmes de reconnaissance faciale

5 raisons pour lesquelles vous avez besoin de données synthétiques
Image Michel Galarnyk
 

Les données synthétiques sont très utiles pour les applications dans des domaines où vous ne pouvez pas facilement obtenir de vraies données. Cela inclut certains types de données sur les accidents de voiture et la plupart des types de données sur la santé qui ont des restrictions de confidentialité (par exemple, dossiers de santé électroniques). Ces dernières années, les chercheurs en soins de santé se sont intéressés à la prédiction de la fibrillation auriculaire (rythme cardiaque irrégulier) à l'aide de signaux ECG et PPG. Le développement d'un détecteur d'arythmie n'est pas seulement difficile car l'annotation de ces signaux est fastidieuse et coûteuse, mais aussi en raison des restrictions de confidentialité. C'est une des raisons pour lesquelles il y a recherche dans la simulation de ces signaux

Il est important de souligner que la collecte de données réelles ne prend pas seulement du temps et de l'énergie, mais peut en fait être dangereuse. L'un des principaux problèmes des applications robotiques telles que les voitures autonomes est qu'elles sont des applications physiques de l'apprentissage automatique. Vous ne pouvez pas déployer un modèle non sécurisé dans le monde réel et avoir un plantage en raison d'un manque de données pertinentes. Enrichir un ensemble de données avec des données synthétiques peut aider les modèles à éviter ces problèmes. 

Voici quelques entreprises qui utilisent des données synthétiques pour améliorer la sécurité des applications : Toyota, Waymoet une Cruise.

5 raisons pour lesquelles vous avez besoin de données synthétiques
Image de Domaine parallèle
 

Image synthétique d'un enfant occlus sur un vélo sortant de derrière un autobus scolaire et traversant la rue à vélo dans un environnement de style banlieue californienne.

Les applications de véhicules autonomes traitent souvent d'événements relativement « rares » (par rapport aux conditions de conduite normales) comme les piétons la nuit ou les cyclistes circulant au milieu de la route. Les modèles ont souvent besoin de centaines de milliers, voire de millions d'exemples pour apprendre un scénario. Un problème majeur est que les données du monde réel collectées ne correspondent peut-être pas à ce que vous recherchez en termes de qualité, de diversité (par exemple, déséquilibre de classe, conditions météorologiques, emplacement) et de quantité. Un autre problème est que pour les voitures et les robots autonomes, vous ne savez pas toujours de quelles données vous avez besoin, contrairement aux tâches d'apprentissage automatique traditionnelles avec des ensembles de données fixes et des références fixes. Bien que certaines techniques d'augmentation des données qui modifient systématiquement ou de manière aléatoire les images soient utiles, ces techniques peuvent présenter ses propres problèmes

C'est là qu'interviennent les données synthétiques. Les API de génération de données synthétiques vous permettent de concevoir des ensembles de données. Ces API peuvent vous faire économiser beaucoup d'argent car il est très coûteux de construire des robots et de collecter des données dans le monde réel. Il est beaucoup mieux et plus rapide d'essayer de générer des données et de comprendre les principes d'ingénierie à l'aide de la génération d'ensembles de données synthétiques.

Voici des exemples qui montrent comment les données synthétiques programmables aident les modèles à apprendre : prévention des transactions frauduleuses (American Express), meilleure détection des cyclistes (domaine parallèle)et une analyse et examen de la chirurgie (Hutom.io).

5 raisons pour lesquelles vous avez besoin de données synthétiques
Phases du cycle de développement du modèle | Image de Jules S. Damji 
 

Dans l'industrie, il y a de nombreux facteurs qui affectent la viabilité/performance d'un projet d'apprentissage automatique à la fois en développement et en production (par exemple, acquisition de données, annotation, formation de modèle, mise à l'échelle, déploiement, surveillance, recyclage de modèle et vitesse de développement). Récemment, 18 ingénieurs en machine learning ont participé à une étude par entretien qui avait pour objectif de comprendre les pratiques et les défis MLOps courants dans les organisations et les applications (par exemple, les véhicules autonomes, le matériel informatique, la vente au détail, les publicités, les systèmes de recommandation, etc.). L'une des conclusions de l'étude était l'importance de la vitesse de développement qui peut être grossièrement définie comme la capacité à prototyper et itérer rapidement des idées.

Un facteur affectant la vitesse de développement est la nécessité de disposer de données pour effectuer la formation et l'évaluation initiales du modèle. ainsi que des recyclages fréquents de modèles en raison de la dégradation des performances du modèle au fil du temps en raison de la dérive des données, de la dérive du concept ou même de l'asymétrie de formation-servage du train. 

 

5 raisons pour lesquelles vous avez besoin de données synthétiques
Image de Manifestement IA
 

L'étude a également indiqué que ce besoin a conduit certaines organisations à mettre en place une équipe pour étiqueter fréquemment les données en direct. Cela coûte cher, prend du temps et limite la capacité d'une organisation à recycler fréquemment les modèles. 

 

5 raisons pour lesquelles vous avez besoin de données synthétiques
Image de Gretel.ai
 

Notez que ce diagramme ne couvre pas la façon dont les données synthétiques peuvent également être utilisées pour des choses comme Tests MLOps dans les recommandations.

Les données synthétiques ont le potentiel d'être utilisées avec des données du monde réel dans le cycle de vie de l'apprentissage automatique (illustré ci-dessus) pour aider les organisations à maintenir leurs modèles performants plus longtemps. 

La génération de données synthétiques devient de plus en plus courante dans les flux de travail d'apprentissage automatique. En fait, Gartner prédit que d'ici 2030, les données synthétiques seront beaucoup plus utilisées que les données du monde réel pour former des modèles d'apprentissage automatique. Si vous avez des questions ou des réflexions sur cet article, n'hésitez pas à nous contacter dans les commentaires ci-dessous ou via Twitter.
 
 
Michel Galarnyk est un professionnel de la science des données et travaille dans les relations avec les développeurs chez Anyscale.
 

Horodatage:

Plus de KDnuggetsGenericName