Bereid en analyseer JSON- en ORC-gegevens met Amazon SageMaker Data Wrangler

Bronknooppunt: 1600106

Amazon SageMaker-gegevens Wrangler is een nieuwe mogelijkheid van Amazon Sage Maker dat maakt het voor datawetenschappers en ingenieurs sneller om gegevens voor machine learning (ML)-toepassingen voor te bereiden via een visuele interface. Gegevensvoorbereiding is een cruciale stap in de ML-levenscyclus en Data Wrangler biedt een end-to-end-oplossing voor het importeren, voorbereiden, transformeren, kenmerken en analyseren van gegevens voor ML in een naadloze, visuele ervaring met weinig code. Hiermee kunt u eenvoudig en snel verbinding maken met AWS-componenten zoals Amazon eenvoudige opslagservice (Amazone S3), Amazone Athene, Amazon roodverschuiving en AWS Lake-formatie, en externe bronnen zoals Snowflake. Data Wrangler ondersteunt ook standaard datatypes zoals CSV en Parquet.

Data Wrangler ondersteunt nu ook Optimized Row Columnar (ORC), JavaScript Object Notation (JSON) en JSON Lines (JSONL) bestandsindelingen:

  • ORC - Het ORC-bestandsformaat biedt een zeer efficiënte manier om Hive-gegevens op te slaan. Het is ontworpen om de beperkingen van de andere Hive-bestandsindelingen te overwinnen. Het gebruik van ORC-bestanden verbetert de prestaties wanneer Hive gegevens leest, schrijft en verwerkt. ORC wordt veel gebruikt in het Hadoop-ecosysteem.
  • JSON – Het JSON-bestandsformaat is een lichtgewicht, veelgebruikt formaat voor gegevensuitwisseling.
  • JSONL – JSON-lijnen, ook wel door nieuwe regels gescheiden JSON genoemd, is een handig formaat voor het opslaan van gestructureerde gegevens die per record kunnen worden verwerkt.

U kunt ORC-, JSON- en JSONL-gegevens vooraf bekijken voordat u de gegevenssets in Data Wrangler importeert. Nadat u de gegevens hebt geïmporteerd, kunt u ook een van de nieuw gelanceerde transformatoren gebruiken om te werken met kolommen die JSON-tekenreeksen of -arrays bevatten die vaak worden aangetroffen in geneste JSON's.

Importeer en analyseer ORC-gegevens met Data Wrangler

Het importeren van ORC-gegevens is in Data Wrangler eenvoudig en vergelijkbaar met het importeren van bestanden in andere ondersteunde formaten. Blader naar uw ORC-bestand in Amazon S3 en in de BIJZONDERHEDEN kies ORC als het bestandstype tijdens het importeren.

Als u nieuw bent bij Data Wrangler, bekijk dan Aan de slag met Data Wrangler. Zie ook import om meer te weten te komen over de verschillende importopties.

Importeer en analyseer JSON-gegevens met Data Wrangler

Laten we nu bestanden in JSON-indeling importeren met Data Wrangler en werken met kolommen die JSON-tekenreeksen of -arrays bevatten. We laten ook zien hoe om te gaan met geneste JSON's. Met Data Wrangler is het importeren van JSON-bestanden van Amazon S3 een naadloos proces. Dit is vergelijkbaar met het importeren van bestanden in andere ondersteunde indelingen. Nadat u de bestanden hebt geïmporteerd, kunt u een voorbeeld van de JSON-bestanden bekijken, zoals weergegeven in de volgende schermafbeelding. Zorg ervoor dat u het bestandstype instelt op JSON in de BIJZONDERHEDEN brood.

Laten we vervolgens werken aan gestructureerde kolommen in het geïmporteerde JSON-bestand.

Om met gestructureerde kolommen in JSON-bestanden om te gaan, introduceert Data Wrangler twee nieuwe transformaties: Maak gestructureerde kolom plat en Explodeer matrixkolom, die te vinden is onder de Behandel gestructureerde kolom optie in het VOEG TRANSFORMATIE TOE brood.

Laten we beginnen met het toepassen van de Explodeer matrixkolom transformeren naar een van de kolommen in onze geïmporteerde gegevens. Voordat we de transformatie toepassen, kunnen we de kolom zien topping is een array van JSON-objecten met id en type sleutels.

Nadat we de transformatie hebben toegepast, kunnen we de nieuwe rijen zien die als resultaat zijn toegevoegd. Elk element in de array is nu een nieuwe rij in het resulterende DataFrame.

Laten we nu de toepassen Maak gestructureerde kolom plat transformeren op de topping_flattened kolom die is gemaakt als gevolg van de Explodeer matrixkolom transformatie die we in de vorige stap hebben toegepast.

Voordat we de transformatie toepassen, kunnen we de sleutels zien id en type in de topping_flattened kolom.

Na het toepassen van de transformatie kunnen we nu de sleutels observeren id en type onder de topping_flattened kolom als nieuwe kolommen topping_flattened_id en topping_flattened_type, die ontstaan ​​als resultaat van de transformatie. U hebt ook de mogelijkheid om alleen specifieke sleutels af te vlakken door de door komma's gescheiden sleutelnamen voor in te voeren Toetsen om op af te vlakken. Indien leeg gelaten, worden alle sleutels binnen de JSON-tekenreeks of -structuur afgevlakt.

Conclusie

In dit bericht hebben we laten zien hoe u eenvoudig bestandsindelingen in ORC en JSON kunt importeren met Data Wrangler. We hebben ook de nieuw gelanceerde transformaties toegepast waarmee we alle gestructureerde kolommen in JSON-gegevens kunnen transformeren. Dit maakt het werken met kolommen die JSON-tekenreeksen of -arrays bevatten een naadloze ervaring.

Als volgende stappen raden we u aan de gedemonstreerde voorbeelden te repliceren in uw eigen visuele Data Wrangler-interface. Als u vragen heeft over Data Wrangler, kunt u deze achterlaten in het opmerkingengedeelte.


Over de auteurs

Balaji Tummala is een Software Development Engineer bij Amazon SageMaker. Hij helpt Amazon SageMaker Data Wrangler te ondersteunen en heeft een passie voor het bouwen van performante en schaalbare software. Naast zijn werk leest hij graag fictie en speelt hij volleybal.

Arunprasath Shankar is een Artificial Intelligence en Machine Learning (AI / ML) Specialist Solutions Architect met AWS, die wereldwijde klanten helpt hun AI-oplossingen effectief en efficiënt in de cloud te schalen. In zijn vrije tijd kijkt Arun graag naar scifi-films en luistert hij naar klassieke muziek.

Bron: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Tijdstempel:

Meer van AWS Blog over machine learning