Exécuter des expériences AutoML avec de grands ensembles de données Parquet à l'aide d'Amazon SageMaker Autopilot

Republié par Platon

Suiveurs: 0

Dès aujourd'hui, vous pouvez utiliser Pilote automatique Amazon SageMaker pour s'attaquer aux tâches de régression et de classification sur de grands ensembles de données jusqu'à 100 Go. De plus, vous pouvez désormais fournir vos ensembles de données au format CSV ou Parquet Apache types de contenu.

Les entreprises génèrent plus de données que jamais. Une demande correspondante augmente pour générer des informations à partir de ces grands ensembles de données afin de façonner les décisions commerciales. Cependant, la formation réussie d'algorithmes d'apprentissage automatique (ML) de pointe sur ces grands ensembles de données peut s'avérer difficile. Autopilot automatise ce processus et offre une expérience transparente pour l'exécution de l'apprentissage automatique automatisé (AutoML) sur de grands ensembles de données jusqu'à 100 Go.

Le pilote automatique sous-échantillonne automatiquement vos grands ensembles de données pour s'adapter à la limite maximale prise en charge tout en préservant la classe rare en cas de déséquilibre de classe. Le déséquilibre des classes est un problème important dont il faut être conscient en ML, en particulier lorsqu'il s'agit de grands ensembles de données. Considérez un ensemble de données de détection de fraude où seule une petite fraction des transactions devrait être frauduleuse. Dans ce cas, Autopilot ne sous-échantillonne que la classe majoritaire, les transactions non frauduleuses, tout en préservant la classe rare, les transactions frauduleuses.

Lorsque vous exécutez une tâche AutoML à l'aide d'Autopilot, toutes les informations pertinentes pour le sous-échantillonnage sont stockées dans Amazon Cloud Watch. Accédez au groupe de journaux pour /aws/sagemaker/ProcessingJobs, recherchez le nom de votre tâche AutoML et choisissez le flux de journal CloudWatch qui inclut -db- en son nom.

Beaucoup de nos clients préfèrent le type de contenu Parquet pour stocker leurs grands ensembles de données. Cela est généralement dû à sa nature compressée, à la prise en charge de structures de données avancées, à son efficacité et à ses opérations à faible coût. Ces données peuvent souvent atteindre des dizaines voire des centaines de Go. Désormais, vous pouvez directement transférer ces ensembles de données Parquet vers Autopilot. Vous pouvez soit utiliser notre API, soit accéder à Amazon SageMakerStudio pour créer une tâche Autopilot en quelques clics. Vous pouvez spécifier l'emplacement d'entrée de votre jeu de données Parquet sous la forme d'un fichier unique ou de plusieurs fichiers spécifiés sous la forme d'un fichier manifeste. Le pilote automatique détecte automatiquement le type de contenu de votre ensemble de données, l'analyse, extrait des fonctionnalités significatives et forme plusieurs algorithmes ML.

Vous pouvez commencer à utiliser notre exemple de cahier pour exécuter AutoML à l'aide d'Autopilot sur des ensembles de données Parquet.