Forbered og analyser JSON- og ORC-data med Amazon SageMaker Data Wrangler

Kilde node: 1600106

Amazon SageMaker Data Wrangler er en ny evne til Amazon SageMaker som gjør det raskere for dataforskere og ingeniører å forberede data for maskinlæringsapplikasjoner (ML) via et visuelt grensesnitt. Dataforberedelse er et avgjørende trinn i ML-livssyklusen, og Data Wrangler tilbyr en ende-til-ende-løsning for å importere, forberede, transformere, presentere og analysere data for ML i en sømløs, visuell opplevelse med lav kode. Den lar deg enkelt og raskt koble til AWS-komponenter som Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShiftog AWS Lake formasjon, og eksterne kilder som Snowflake. Data Wrangler støtter også standard datatyper som CSV og Parkett.

Data Wrangler støtter nå i tillegg Optimized Row Columnar (ORC), JavaScript Object Notation (JSON) og JSON Lines (JSONL) filformater:

  • ORC – ORC-filformatet gir en svært effektiv måte å lagre Hive-data på. Den ble designet for å overvinne begrensningene til de andre Hive-filformatene. Bruk av ORC-filer forbedrer ytelsen når Hive leser, skriver og behandler data. ORC er mye brukt i Hadoop-økosystemet.
  • JSON – JSON-filformatet er et lett, ofte brukt datautvekslingsformat.
  • JSONL – JSON-linjer, også kalt nylinjeseparert JSON, er et praktisk format for lagring av strukturerte data som kan behandles én post om gangen.

Du kan forhåndsvise ORC-, JSON- og JSONL-data før du importerer datasettene til Data Wrangler. Etter at du har importert dataene, kan du også bruke en av de nylig lanserte transformatorene til å jobbe med kolonner som inneholder JSON-strenger eller matriser som vanligvis finnes i nestede JSON-er.

Importer og analyser ORC-data med Data Wrangler

Import av ORC-data er i Data Wrangler er enkelt og ligner på å importere filer i andre støttede formater. Bla til ORC-filen din i Amazon S3 og i INFORMASJON velg ORC som filtype under import.

Hvis du er ny på Data Wrangler, bør du se gjennom Kom i gang med Data Wrangler. Se også Import for å lære om de ulike importalternativene.

Importer og analyser JSON-data med Data Wrangler

La oss nå importere filer i JSON-format med Data Wrangler og jobbe med kolonner som inneholder JSON-strenger eller matriser. Vi viser også hvordan man håndterer nestede JSON-er. Med Data Wrangler er import av JSON-filer fra Amazon S3 en sømløs prosess. Dette ligner på å importere filer i andre støttede formater. Etter at du har importert filene, kan du forhåndsvise JSON-filene som vist i følgende skjermbilde. Sørg for å sette filtypen til JSON i INFORMASJON ruten.

La oss deretter jobbe med strukturerte kolonner i den importerte JSON-filen.

For å håndtere strukturerte kolonner i JSON-filer, introduserer Data Wrangler to nye transformasjoner: Flat strukturert kolonne og Eksploder array-kolonnen, som finnes under Håndter strukturert kolonne alternativet i LEGG TIL TRANSFORM ruten.

La oss starte med å bruke Eksploder array-kolonnen transformere til en av kolonnene i våre importerte data. Før vi bruker transformasjonen, kan vi se kolonnen topping er en rekke JSON-objekter med id og type nøkler.

Etter at vi har brukt transformasjonen, kan vi observere de nye radene som er lagt til som et resultat. Hvert element i matrisen er nå en ny rad i den resulterende DataFrame.

La oss nå bruke Flat strukturert kolonne transformere på topping_flattened kolonne som ble opprettet som et resultat av Eksploder array-kolonnen transformasjon vi brukte i forrige trinn.

Før vi bruker transformasjonen, kan vi se nøklene id og type i topping_flattened kolonne.

Etter å ha brukt transformasjonen, kan vi nå observere nøklene id og type under topping_flattened kolonne som nye kolonner topping_flattened_id og topping_flattened_type, som er opprettet som et resultat av transformasjonen. Du har også muligheten til å flate ut bare spesifikke nøkler ved å skrive inn kommadelte nøkkelnavn for Taster å flate på. Hvis de står tomme, blir alle nøklene inne i JSON-strengen eller strukturen flatet ut.

konklusjonen

I dette innlegget demonstrerte vi hvordan du enkelt importerer filformater i ORC og JSON med Data Wrangler. Vi brukte også de nylig lanserte transformasjonene som lar oss transformere alle strukturerte kolonner i JSON-data. Dette gjør arbeidet med kolonner som inneholder JSON-strenger eller matriser til en sømløs opplevelse.

Som neste trinn anbefaler vi at du replikerer de demonstrerte eksemplene i ditt eget visuelle Data Wrangler-grensesnitt. Hvis du har spørsmål knyttet til Data Wrangler, legg dem gjerne igjen i kommentarfeltet.


Om forfatterne

Balaji Tummala er programvareutviklingsingeniør hos Amazon SageMaker. Han hjelper til med å støtte Amazon SageMaker Data Wrangler og brenner for å bygge effektiv og skalerbar programvare. Utenom jobben liker han å lese skjønnlitteratur og spille volleyball.

Arunprasath Shankar er en kunstig intelligens og maskinlæring (AI / ML) spesialistløsningsarkitekt med AWS, som hjelper globale kunder å skalere sine AI-løsninger effektivt og effektivt i skyen. På fritiden liker Arun å se sci-fi-filmer og lytte til klassisk musikk.

Kilde: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Tidstempel:

Mer fra AWS maskinlæringsblogg