Préparez et analysez les données JSON et ORC avec Amazon SageMaker Data Wrangler

Nœud source: 1600106

Gestionnaire de données Amazon SageMaker est une nouvelle capacité de Amazon Sage Maker Cela permet aux scientifiques et aux ingénieurs des données de préparer plus rapidement les données pour les applications d'apprentissage automatique (ML) via une interface visuelle. La préparation des données est une étape cruciale du cycle de vie ML, et Data Wrangler fournit une solution de bout en bout pour importer, préparer, transformer, caractériser et analyser les données pour ML dans une expérience fluide, visuelle et low-code. Il vous permet de vous connecter facilement et rapidement aux composants AWS tels que Service de stockage simple Amazon (Amazon S3), Amazone Athéna, Redshift d'Amazonet Formation AWS Lake, et des sources externes comme Snowflake. Data Wrangler prend également en charge les types de données standard tels que CSV et Parquet.

Data Wrangler prend désormais en charge la colonne de ligne optimisée (ORC), JavaScript Object Notation (JSON) et JSON Lines (JSONL) :

  • ORC – Le format de fichier ORC offre un moyen très efficace de stocker des données Hive. Il a été conçu pour surmonter les limitations des autres formats de fichiers Hive. L'utilisation de fichiers ORC améliore les performances lorsque Hive lit, écrit et traite des données. ORC est largement utilisé dans l'écosystème Hadoop.
  • JSON – Le format de fichier JSON est un format d'échange de données léger et couramment utilisé.
  • JSONL – Les lignes JSON, également appelées JSON délimitées par des retours à la ligne, sont un format pratique pour stocker des données structurées qui peuvent être traitées un enregistrement à la fois.

Vous pouvez prévisualiser les données ORC, JSON et JSONL avant d'importer les jeux de données dans Data Wrangler. Après avoir importé les données, vous pouvez également utiliser l'un des transformateurs récemment lancés pour travailler avec des colonnes contenant des chaînes JSON ou des tableaux que l'on trouve couramment dans les JSON imbriqués.

Importer et analyser des données ORC avec Data Wrangler

L'importation de données ORC dans Data Wrangler est simple et similaire à l'importation de fichiers dans tout autre format pris en charge. Accédez à votre fichier ORC dans Amazon S3 et dans le DÉTAILS volet, choisissez ORC comme type de fichier lors de l'importation.

Si vous débutez avec Data Wrangler, consultez Premiers pas avec Data Wrangler. Regarde aussi L’ pour en savoir plus sur les différentes options d'importation.

Importer et analyser des données JSON avec Data Wrangler

Importons maintenant des fichiers au format JSON avec Data Wrangler et travaillons avec des colonnes contenant des chaînes ou des tableaux JSON. Nous montrons également comment traiter les JSON imbriqués. Avec Data Wrangler, l'importation de fichiers JSON depuis Amazon S3 est un processus transparent. Ceci est similaire à l'importation de fichiers dans tout autre format pris en charge. Après avoir importé les fichiers, vous pouvez prévisualiser les fichiers JSON comme indiqué dans la capture d'écran suivante. Assurez-vous de définir le type de fichier sur JSON dans le DÉTAILS vitre.

Travaillons ensuite sur les colonnes structurées dans le fichier JSON importé.

Pour gérer les colonnes structurées dans les fichiers JSON, Data Wrangler introduit deux nouvelles transformations : Aplatir la colonne structurée ainsi que Exploser la colonne du tableau, qui se trouve sous le Poignée colonne structurée option dans la AJOUTER TRANSFORMER vitre.

Commençons par appliquer le Exploser la colonne du tableau transformer en l'une des colonnes de nos données importées. Avant d'appliquer la transformation, nous pouvons voir la colonne topping est un tableau d'objets JSON avec id ainsi que type clés.

Après avoir appliqué la transformation, nous pouvons observer les nouvelles lignes ajoutées en conséquence. Chaque élément du tableau est maintenant une nouvelle ligne dans le DataFrame résultant.

Appliquons maintenant le Aplatir la colonne structurée transformer sur le topping_flattened colonne qui a été créée à la suite de la Exploser la colonne du tableau transformation que nous avons appliquée à l'étape précédente.

Avant d'appliquer la transformation, nous pouvons voir les clés id ainsi que type dans l' topping_flattened colonne.

Après avoir appliqué la transformation, nous pouvons maintenant observer les clés id ainsi que type sous le topping_flattened colonne en tant que nouvelles colonnes topping_flattened_id ainsi que topping_flattened_type, qui sont créés à la suite de la transformation. Vous avez également la possibilité d'aplatir uniquement des clés spécifiques en entrant les noms de clés séparés par des virgules pour Clés à aplatir. Si laissé vide, toutes les clés à l'intérieur de la chaîne ou de la structure JSON sont aplaties.

Conclusion

Dans cet article, nous avons montré comment importer facilement des formats de fichiers dans ORC et JSON avec Data Wrangler. Nous avons également appliqué les transformations récemment lancées qui nous permettent de transformer toutes les colonnes structurées en données JSON. Cela rend le travail avec des colonnes contenant des chaînes ou des tableaux JSON une expérience transparente.

Dans les étapes suivantes, nous vous recommandons de répliquer les exemples démontrés dans votre propre interface visuelle Data Wrangler. Si vous avez des questions concernant Data Wrangler, n'hésitez pas à les laisser dans la section des commentaires.


À propos des auteurs

Balaji Tummala est ingénieur en développement logiciel chez Amazon SageMaker. Il aide à prendre en charge Amazon SageMaker Data Wrangler et est passionné par la création de logiciels performants et évolutifs. En dehors du travail, il aime lire des romans et jouer au volleyball.

Arunprasath Shankar est un architecte de solutions spécialisé en intelligence artificielle et apprentissage automatique (AI / ML) avec AWS, qui aide les clients du monde entier à faire évoluer leurs solutions d'IA de manière efficace et efficiente dans le cloud. Dans ses temps libres, Arun aime regarder des films de science-fiction et écouter de la musique classique.

Source : https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Horodatage:

Plus de Blog sur l'apprentissage automatique AWS