Bereiten Sie JSON- und ORC-Daten mit Amazon SageMaker Data Wrangler vor und analysieren Sie sie

Quellknoten: 1600106

Amazon SageMaker Data Wrangler ist eine neue Fähigkeit von Amazon Sage Maker Dadurch können Datenwissenschaftler und Ingenieure Daten schneller über eine visuelle Schnittstelle für Anwendungen des maschinellen Lernens (ML) vorbereiten. Die Datenvorbereitung ist ein entscheidender Schritt im ML-Lebenszyklus, und Data Wrangler bietet eine End-to-End-Lösung zum Importieren, Vorbereiten, Transformieren, Featuredisieren und Analysieren von Daten für ML in einem nahtlosen, visuellen Low-Code-Erlebnis. Damit können Sie einfach und schnell eine Verbindung zu AWS-Komponenten herstellen Amazon Simple Storage-Service (Amazon S3), Amazonas Athena, Amazon RedShift und AWS Lake-Formationund externe Quellen wie Snowflake. Data Wrangler unterstützt auch Standarddatentypen wie CSV und Parquet.

Data Wrangler unterstützt jetzt zusätzlich Optimized Row Columnar (ORC), JavaScript Object Notation (JSON) und JSON Lines (JSONL) Dateiformate:

  • ORC – Das ORC-Dateiformat bietet eine äußerst effiziente Möglichkeit, Hive-Daten zu speichern. Es wurde entwickelt, um die Einschränkungen der anderen Hive-Dateiformate zu überwinden. Die Verwendung von ORC-Dateien verbessert die Leistung, wenn Hive Daten liest, schreibt und verarbeitet. ORC wird im Hadoop-Ökosystem häufig verwendet.
  • JSON – Das JSON-Dateiformat ist ein leichtes, häufig verwendetes Datenaustauschformat.
  • JSONL – JSON Lines, auch durch Zeilenumbrüche getrenntes JSON genannt, ist ein praktisches Format zum Speichern strukturierter Daten, die datensatzweise verarbeitet werden können.

Sie können eine Vorschau der ORC-, JSON- und JSONL-Daten anzeigen, bevor Sie die Datensätze in Data Wrangler importieren. Nachdem Sie die Daten importiert haben, können Sie auch einen der neu gestarteten Transformer verwenden, um mit Spalten zu arbeiten, die JSON-Zeichenfolgen oder -Arrays enthalten, die häufig in verschachtelten JSONs zu finden sind.

Importieren und analysieren Sie ORC-Daten mit Data Wrangler

Das Importieren von ORC-Daten in Data Wrangler ist einfach und ähnelt dem Importieren von Dateien in anderen unterstützten Formaten. Navigieren Sie zu Ihrer ORC-Datei in Amazon S3 und im DETAILS Wählen Sie im Bereich „ORC“ beim Importieren den Dateityp „ORC“ aus.

Wenn Sie Data Wrangler noch nicht kennen, schauen Sie sich das an Erste Schritte mit Data Wrangler. Siehe auch Import um mehr über die verschiedenen Importoptionen zu erfahren.

Importieren und analysieren Sie JSON-Daten mit Data Wrangler

Jetzt importieren wir Dateien im JSON-Format mit Data Wrangler und arbeiten mit Spalten, die JSON-Strings oder -Arrays enthalten. Wir zeigen auch, wie man mit verschachtelten JSONs umgeht. Mit Data Wrangler ist der Import von JSON-Dateien aus Amazon S3 ein nahtloser Prozess. Dies ähnelt dem Importieren von Dateien in anderen unterstützten Formaten. Nachdem Sie die Dateien importiert haben, können Sie eine Vorschau der JSON-Dateien anzeigen, wie im folgenden Screenshot gezeigt. Stellen Sie sicher, dass der Dateityp in der Datei auf JSON eingestellt ist DETAILS Feld.

Als Nächstes arbeiten wir an strukturierten Spalten in der importierten JSON-Datei.

Um mit strukturierten Spalten in JSON-Dateien umzugehen, führt Data Wrangler zwei neue Transformationen ein: Strukturierte Spalte abflachen und Array-Spalte auflösen, die unter der zu finden ist Behandeln Sie strukturierte Spalten Option in der TRANSFORMIEREN HINZUFÜGEN Feld.

Beginnen wir mit der Anwendung Array-Spalte auflösen in eine der Spalten unserer importierten Daten umwandeln. Bevor wir die Transformation anwenden, können wir die Spalte sehen topping ist ein Array von JSON-Objekten mit id und type Schlüssel.

Nachdem wir die Transformation angewendet haben, können wir die dadurch hinzugefügten neuen Zeilen beobachten. Jedes Element im Array ist nun eine neue Zeile im resultierenden DataFrame.

Wenden wir nun das an Strukturierte Spalte abflachen transformieren auf der topping_flattened Spalte, die als Ergebnis erstellt wurde Array-Spalte auflösen Transformation, die wir im vorherigen Schritt angewendet haben.

Bevor wir die Transformation anwenden, können wir die Schlüssel sehen id und type der topping_flattened Spalte.

Nachdem wir die Transformation angewendet haben, können wir nun die Schlüssel beobachten id und type unter dem topping_flattened Spalte als neue Spalten topping_flattened_id und topping_flattened_type, die als Ergebnis der Transformation entstehen. Sie haben auch die Möglichkeit, nur bestimmte Schlüssel zu reduzieren, indem Sie die durch Kommas getrennten Schlüsselnamen für eingeben Schlüssel zum Abflachen. Wenn es leer bleibt, werden alle Schlüssel innerhalb der JSON-Zeichenfolge oder -Struktur reduziert.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie Sie mit Data Wrangler problemlos Dateiformate in ORC und JSON importieren können. Wir haben auch die neu eingeführten Transformationen angewendet, die es uns ermöglichen, alle strukturierten Spalten in JSON-Daten zu transformieren. Dadurch wird die Arbeit mit Spalten, die JSON-Strings oder -Arrays enthalten, zu einem nahtlosen Erlebnis.

Als nächste Schritte empfehlen wir Ihnen, die gezeigten Beispiele in Ihrer eigenen visuellen Benutzeroberfläche von Data Wrangler zu replizieren. Wenn Sie Fragen zu Data Wrangler haben, können Sie diese gerne im Kommentarbereich hinterlassen.


Über die Autoren

Balaji Tummala ist Softwareentwicklungsingenieur bei Amazon SageMaker. Er hilft bei der Unterstützung von Amazon SageMaker Data Wrangler und ist begeistert von der Entwicklung leistungsstarker und skalierbarer Software. Außerhalb der Arbeit liest er gerne Belletristik und spielt Volleyball.

Arunprasath Shankar ist ein auf AWS spezialisierter Lösungsarchitekt für künstliche Intelligenz und maschinelles Lernen (AI / ML), der globalen Kunden hilft, ihre KI-Lösungen effektiv und effizient in der Cloud zu skalieren. In seiner Freizeit sieht Arun gerne Science-Fiction-Filme und hört klassische Musik.

Quelle: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Zeitstempel:

Mehr von AWS-Blog für maschinelles Lernen