Forbered og analyser JSON- og ORC-data med Amazon SageMaker Data Wrangler

Kildeknude: 1600106

Amazon SageMaker Data Wrangler er en ny evne til Amazon SageMaker som gør det hurtigere for datavidenskabsfolk og ingeniører at forberede data til maskinlæringsapplikationer (ML) via en visuel grænseflade. Dataforberedelse er et afgørende trin i ML-livscyklussen, og Data Wrangler leverer en end-to-end-løsning til at importere, forberede, transformere, fremhæve og analysere data til ML i en problemfri, visuel oplevelse med lav kode. Det lader dig nemt og hurtigt oprette forbindelse til AWS-komponenter som f Amazon Simple Storage Service (Amazon S3), Amazonas Athena, Amazon rødforskydningog AWS søformation, og eksterne kilder som Snowflake. Data Wrangler understøtter også standard datatyper såsom CSV og Parket.

Data Wrangler understøtter nu desuden Optimized Row Columnar (ORC), JavaScript Object Notation (JSON) og JSON Lines (JSONL) filformater:

  • ORC – ORC-filformatet giver en yderst effektiv måde at gemme Hive-data på. Det blev designet til at overvinde begrænsningerne i de andre Hive-filformater. Brug af ORC-filer forbedrer ydeevnen, når Hive læser, skriver og behandler data. ORC er meget udbredt i Hadoop-økosystemet.
  • JSON – JSON-filformatet er et let, almindeligt anvendt dataudvekslingsformat.
  • JSONL – JSON-linjer, også kaldet newline-separeret JSON, er et bekvemt format til lagring af strukturerede data, der kan behandles én post ad gangen.

Du kan forhåndsvise ORC-, JSON- og JSONL-data, før du importerer datasættene til Data Wrangler. Når du har importeret dataene, kan du også bruge en af ​​de nyligt lancerede transformere til at arbejde med kolonner, der indeholder JSON-strenge eller arrays, der almindeligvis findes i indlejrede JSON'er.

Importer og analyser ORC-data med Data Wrangler

Import af ORC-data er i Data Wrangler er let og ligner import af filer i andre understøttede formater. Gennemse din ORC-fil i Amazon S3 og i DETALJER ruden, skal du vælge ORC som filtype under import.

Hvis du er ny til Data Wrangler, så anmeld Kom godt i gang med Data Wrangler. Se også Importere for at lære om de forskellige importmuligheder.

Importer og analyser JSON-data med Data Wrangler

Lad os nu importere filer i JSON-format med Data Wrangler og arbejde med kolonner, der indeholder JSON-strenge eller arrays. Vi demonstrerer også, hvordan man håndterer indlejrede JSON'er. Med Data Wrangler er import af JSON-filer fra Amazon S3 en problemfri proces. Dette svarer til at importere filer i andre understøttede formater. Når du har importeret filerne, kan du forhåndsvise JSON-filerne som vist på det følgende skærmbillede. Sørg for at indstille filtypen til JSON i DETALJER rude.

Lad os derefter arbejde på strukturerede kolonner i den importerede JSON-fil.

For at håndtere strukturerede kolonner i JSON-filer introducerer Data Wrangler to nye transformationer: Flad struktureret søjle , Eksploder array kolonne, som kan findes under Håndter struktureret kolonne valgmulighed i TILFØJ TRANSFORM rude.

Lad os starte med at anvende Eksploder array kolonne transformere til en af ​​kolonnerne i vores importerede data. Før vi anvender transformationen, kan vi se kolonnen topping er en række JSON-objekter med id , type nøgler.

Efter at vi har anvendt transformationen, kan vi observere de nye rækker tilføjet som et resultat. Hvert element i arrayet er nu en ny række i den resulterende DataFrame.

Lad os nu anvende Flad struktureret søjle transformere på topping_flattened kolonne, der blev oprettet som et resultat af Eksploder array kolonne transformation, vi anvendte i det foregående trin.

Før vi anvender transformationen, kan vi se nøglerne id , type i topping_flattened kolonne.

Efter at have anvendt transformationen, kan vi nu observere tasterne id , type under topping_flattened kolonne som nye kolonner topping_flattened_id , topping_flattened_type, som er skabt som følge af transformationen. Du har også mulighed for kun at udjævne specifikke taster ved at indtaste de kommaseparerede nøglenavne for Nøgler til at flade på. Hvis de efterlades tomme, bliver alle nøglerne inde i JSON-strengen eller strukturen fladtrykte.

Konklusion

I dette indlæg demonstrerede vi, hvordan man nemt importerer filformater i ORC og JSON med Data Wrangler. Vi har også anvendt de nyligt lancerede transformationer, der giver os mulighed for at transformere alle strukturerede kolonner i JSON-data. Dette gør arbejdet med kolonner, der indeholder JSON-strenge eller arrays, til en problemfri oplevelse.

Som næste trin anbefaler vi, at du gentager de demonstrerede eksempler i din egen Data Wrangler-visuelle grænseflade. Hvis du har spørgsmål relateret til Data Wrangler, er du velkommen til at efterlade dem i kommentarfeltet.


Om forfatterne

Balaji Tummala er softwareudviklingsingeniør hos Amazon SageMaker. Han hjælper med at understøtte Amazon SageMaker Data Wrangler og brænder for at bygge effektiv og skalerbar software. Uden for arbejdet holder han af at læse skønlitteratur og spille volleyball.

Arunprasath Shankar er en specialist i kunstig intelligens og maskinlæring (AI/ML) med AWS, der hjælper globale kunder med at skalere deres AI-løsninger effektivt og effektivt i skyen. I sin fritid nyder Arun at se sci-fi-film og lytte til klassisk musik.

Kilde: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Tidsstempel:

Mere fra AWS Machine Learning Blog