Lancez des tâches de traitement en quelques clics à l'aide d'Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Gestionnaire de données Amazon SageMaker accélère la préparation des données pour les applications d'apprentissage automatique (ML) par les data scientists et les ingénieurs à l'aide d'une interface visuelle. Auparavant, lorsque vous créiez un flux de données Data Wrangler, vous pouviez choisir différentes options d'exportation pour intégrer facilement ce flux de données dans votre pipeline de traitement de données. Data Wrangler offre des options d'exportation vers Service de stockage simple Amazon (Amazon S3), Pipelines SageMakeret Magasin de fonctionnalités SageMaker, ou en tant que code Python. Les options d'exportation créent un bloc-notes Jupyter et vous obligent à exécuter le code pour démarrer une tâche de traitement facilitée par Traitement SageMaker.

Nous sommes ravis d'annoncer la sortie générale des nœuds de destination et de la fonctionnalité Créer une tâche dans Data Wrangler. Cette fonctionnalité vous donne la possibilité d'exporter toutes les transformations que vous avez apportées à un jeu de données vers un nœud de destination en quelques clics seulement. Cela vous permet de créer des tâches de traitement de données et d'exporter vers Amazon S3 uniquement via l'interface visuelle sans avoir à générer, exécuter ou gérer des blocs-notes Jupyter, améliorant ainsi l'expérience low-code. Pour démontrer cette nouvelle fonctionnalité, nous utilisons le Jeu de données Titanic et montrez comment exporter vos transformations vers un nœud de destination.

Pré-requis

Avant d'apprendre à utiliser les nœuds de destination avec Data Wrangler, vous devez déjà comprendre comment accéder et démarrer avec Data Wrangler. Vous devez également savoir ce qu'est un flux de données signifie avec le contexte de Data Wrangler et comment en créer un en important vos données à partir des différentes sources de données prises en charge par Data Wrangler.

Vue d'ensemble de la solution

Considérez le flux de données suivant nommé example-titanic.flow:

Il importe trois fois le jeu de données Titanic. Vous pouvez voir ces différentes importations sous forme de branches distinctes dans le flux de données.
Pour chaque branche, il applique un ensemble de transformations et de visualisations.
Il joint les branches en un seul nœud avec toutes les transformations et visualisations.

Avec ce flux, vous souhaiterez peut-être traiter et enregistrer des parties de vos données dans une succursale ou un emplacement spécifique.

Dans les étapes suivantes, nous montrons comment créer des nœuds de destination, les exporter vers Amazon S3, et créer et lancer une tâche de traitement.

Créer un nœud de destination

Vous pouvez utiliser la procédure suivante pour créer des nœuds de destination et les exporter vers un compartiment S3 :

Déterminez les parties du fichier de flux (transformations) que vous souhaitez enregistrer.
Choisissez le signe plus à côté des nœuds qui représentent les transformations que vous souhaitez exporter. (S'il s'agit d'un nœud réduit, vous devez sélectionner l'icône d'options (trois points) pour le nœud).
Survolez Ajouter destination.
Selectionnez Amazon S3.
Spécifiez les champs comme indiqué dans la capture d'écran suivante.
Pour le deuxième nœud de jointure, suivez les mêmes étapes pour ajouter Amazon S3 en tant que destination et spécifiez les champs.

Vous pouvez répéter ces étapes autant de fois que nécessaire pour autant de nœuds que vous souhaitez dans votre flux de données. Plus tard, vous choisissez les nœuds de destination à inclure dans votre tâche de traitement.

Lancer une tâche de traitement

Utilisez la procédure suivante pour créer une tâche de traitement et choisissez le nœud de destination vers lequel vous souhaitez exporter :

Sur le Flux de données onglet, choisissez Créer un emploi.
Pour Nom du travail¸ saisissez le nom de la tâche d'exportation.
Sélectionnez les nœuds de destination que vous souhaitez exporter.
Facultativement, spécifiez le Service de gestion des clés AWS (AWS KMS) clé ARN.

La clé KMS est une clé cryptographique que vous pouvez utiliser pour protéger vos données. Pour plus d'informations sur les clés KMS, consultez le Guide du développeur de clés AWS.

Selectionnez Ensuite, 2. Configurer le travail.
Si vous le souhaitez, vous pouvez configurer la tâche selon vos besoins en modifiant le type ou le nombre d'instances, ou en ajoutant des balises à associer à la tâche.
Selectionnez Courir pour exécuter le travail.

Un message de réussite s'affiche lorsque la tâche est créée avec succès.

Voir les données finales

Enfin, vous pouvez utiliser les étapes suivantes pour afficher les données exportées :

Après avoir créé la tâche, choisissez le lien fourni.

Un nouvel onglet s'ouvre et affiche la tâche de traitement sur la console SageMaker.

Une fois la tâche terminée, passez en revue les données exportées sur la console Amazon S3.

Vous devriez voir un nouveau dossier avec le nom du travail que vous avez choisi.

Choisissez le nom de la tâche pour afficher un fichier CSV (ou plusieurs fichiers) avec les données finales.

QFP

Dans cette section, nous répondons à quelques questions fréquemment posées sur cette nouvelle fonctionnalité :

Qu'est-il arrivé à l'onglet Exporter ? Avec cette nouvelle fonctionnalité, nous avons supprimé le Exportations onglet de Data Wrangler. Vous pouvez toujours faciliter la fonctionnalité d'exportation via les blocs-notes Jupyter générés par Data Wrangler à partir de n'importe quel nœud que vous avez créé dans le flux de données en procédant comme suit :

1. Choisissez le signe plus à côté du nœud que vous souhaitez exporter.
2. Selectionnez Exporter vers.
3. Selectionnez Amazon S3 (via le bloc-notes Jupyter).
4. Exécutez le bloc-notes Jupyter.

Combien de nœuds de destination puis-je inclure dans une tâche ? Il y a un maximum de 10 destinations par tâche de traitement.
Combien de nœuds de destination puis-je avoir dans un fichier de flux ? Vous pouvez avoir autant de nœuds de destination que vous le souhaitez.
Puis-je ajouter des transformations après mes nœuds de destination ? Non, l'idée est que les nœuds de destination sont des nœuds terminaux qui n'ont pas d'autres étapes par la suite.
Quelles sont les sources prises en charge que je peux utiliser avec les nœuds de destination ? Au moment d'écrire ces lignes, nous ne prenons en charge qu'Amazon S3 en tant que source de destination. La prise en charge d'autres types de sources de destination sera ajoutée à l'avenir. Veuillez nous contacter s'il y en a un spécifique que vous aimeriez voir.

Résumé

Dans cet article, nous avons montré comment utiliser les nœuds de destination nouvellement lancés pour créer des tâches de traitement et enregistrer vos ensembles de données transformés directement sur Amazon S3 via l'interface visuelle Data Wrangler. Avec cette fonctionnalité supplémentaire, nous avons amélioré l'expérience low-code pilotée par les outils de Data Wrangler.

Comme étapes suivantes, nous vous recommandons d'essayer l'exemple présenté dans cet article. Si vous avez des questions ou souhaitez en savoir plus, consultez Exportations ou laissez une question dans la section des commentaires.

À propos des auteurs

Alfonso Austin Rivera est ingénieur front-end chez Amazon SageMaker Data Wrangler. Il est passionné par la création d'expériences utilisateur intuitives qui suscitent la joie. Pendant son temps libre, vous pouvez le trouver en train de combattre la gravité dans une salle d'escalade ou à l'extérieur en train de piloter son drone.

Parsa Shahbodaghi est un rédacteur technique chez AWS spécialisé dans l'apprentissage automatique et l'intelligence artificielle. Il rédige la documentation technique pour Amazon SageMaker Data Wrangler et Amazon SageMaker Feature Store. Pendant son temps libre, il aime méditer, écouter des livres audio, faire de l'haltérophilie et regarder des comédies. Il ne sera jamais un comédien de stand-up, mais au moins sa mère pense qu'il est drôle.

Balaji Tummala est ingénieur en développement logiciel chez Amazon SageMaker. Il aide à prendre en charge Amazon SageMaker Data Wrangler et est passionné par la création de logiciels performants et évolutifs. En dehors du travail, il aime lire des romans et jouer au volleyball.

Arunprasath Shankar est un architecte de solutions spécialisé en intelligence artificielle et apprentissage automatique (AI / ML) avec AWS, qui aide les clients du monde entier à faire évoluer leurs solutions d'IA de manière efficace et efficiente dans le cloud. Dans ses temps libres, Arun aime regarder des films de science-fiction et écouter de la musique classique.