Pripravite in analizirajte podatke JSON in ORC z Amazon SageMaker Data Wrangler

Izvorno vozlišče: 1600106

Amazon SageMaker Data Wrangler je nova sposobnost podjetja Amazon SageMaker ki podatkovnim znanstvenikom in inženirjem omogoča hitrejšo pripravo podatkov za aplikacije strojnega učenja (ML) prek vizualnega vmesnika. Priprava podatkov je ključni korak v življenjskem ciklu ML in Data Wrangler zagotavlja celovito rešitev za uvoz, pripravo, transformacijo, prikazovanje in analizo podatkov za ML v brezhibni, vizualni izkušnji z nizko kodo. Omogoča enostavno in hitro povezavo s komponentami AWS, kot je Preprosta storitev shranjevanja Amazon (Amazon S3), Amazonska Atena, Amazon RedShiftin Oblikovanje jezera AWS, in zunanji viri, kot je Snowflake. Data Wrangler podpira tudi standardne vrste podatkov, kot sta CSV in Parquet.

Data Wrangler zdaj dodatno podpira Optimized Row Columnar (CRO), formati datotek JavaScript Object Notation (JSON) in JSON Lines (JSONL):

  • CRO – Format datoteke ORC zagotavlja zelo učinkovit način za shranjevanje podatkov Hive. Zasnovan je bil za premagovanje omejitev drugih formatov datotek Hive. Uporaba datotek ORC izboljša zmogljivost, ko Hive bere, piše in obdeluje podatke. ORC se pogosto uporablja v ekosistemu Hadoop.
  • JSON – Format datoteke JSON je lahek, pogosto uporabljen format za izmenjavo podatkov.
  • JSONL – Vrstice JSON, imenovane tudi JSON z novo vrstico, so priročen format za shranjevanje strukturiranih podatkov, ki se lahko obdelujejo en zapis naenkrat.

Podatke ORC, JSON in JSONL si lahko predogledate pred uvozom naborov podatkov v Data Wrangler. Ko uvozite podatke, lahko za delo s stolpci, ki vsebujejo nize JSON ali nize, ki jih običajno najdemo v ugnezdenih JSON-ih, uporabite tudi enega od na novo predstavljenih transformatorjev.

Uvozite in analizirajte podatke ORC z Data Wranglerjem

Uvažanje podatkov ORC v Data Wrangler je preprosto in podobno uvažanju datotek v kateri koli drugi podprti obliki. Poiščite datoteko ORC v Amazon S3 in v PODROBNOSTI podoknu izberite ORC kot vrsto datoteke med uvozom.

Če ste novi v Data Wranglerju, preglejte Začnite z Data Wrangler. Glej tudi uvoz če želite izvedeti več o različnih možnostih uvoza.

Uvozite in analizirajte podatke JSON s programom Data Wrangler

Zdaj pa uvozimo datoteke v formatu JSON z Data Wranglerjem in delajmo s stolpci, ki vsebujejo nize ali nize JSON. Pokažemo tudi, kako ravnati z ugnezdenimi JSON-i. Z Data Wranglerjem je uvažanje datotek JSON iz Amazon S3 brezhiben postopek. To je podobno uvozu datotek v drugih podprtih formatih. Ko uvozite datoteke, si lahko predogledate datoteke JSON, kot je prikazano na naslednjem posnetku zaslona. Ne pozabite nastaviti vrste datoteke na JSON v PODROBNOSTI okno.

Nato se lotimo strukturiranih stolpcev v uvoženi datoteki JSON.

Za obravnavo strukturiranih stolpcev v datotekah JSON Data Wrangler uvaja dve novi transformaciji: Izravnajte strukturiran stolpec in Razčleni stolpec matrike, ki ga najdete pod Obravnavajte strukturiran stolpec možnost v DODAJ TRANSFORMACIJO okno.

Začnimo z uporabo Razčleni stolpec matrike pretvori v enega od stolpcev v naših uvoženih podatkih. Preden uporabimo transformacijo, lahko vidimo stolpec topping je niz objektov JSON z id in type ključi.

Ko uporabimo transformacijo, lahko opazujemo nove vrstice, dodane kot rezultat. Vsak element v matriki je zdaj nova vrstica v dobljenem DataFrame.

Zdaj pa uporabimo Izravnajte strukturiran stolpec preoblikovati na topping_flattened stolpec, ki je nastal kot rezultat Razčleni stolpec matrike transformacijo, ki smo jo uporabili v prejšnjem koraku.

Preden uporabimo transformacijo, lahko vidimo ključe id in type v topping_flattened stolpec.

Po uporabi transformacije lahko zdaj opazujemo ključe id in type pod topping_flattened stolpec kot nove stolpce topping_flattened_id in topping_flattened_type, ki nastanejo kot posledica transformacije. Imate tudi možnost, da izravnate samo določene ključe, tako da vnesete imena ključev, ločena z vejico Ključi za sploščitev. Če pustite prazno, so vsi ključi znotraj niza ali strukture JSON sploščeni.

zaključek

V tej objavi smo pokazali, kako preprosto uvoziti formate datotek v ORC in JSON z Data Wranglerjem. Uporabili smo tudi na novo predstavljene transformacije, ki nam omogočajo transformacijo poljubnih strukturiranih stolpcev v podatkih JSON. Zaradi tega je delo s stolpci, ki vsebujejo nize ali polja JSON, brezhibna izkušnja.

Kot naslednje korake priporočamo, da prikazane primere ponovite v lastnem vizualnem vmesniku Data Wrangler. Če imate kakršna koli vprašanja v zvezi z Data Wranglerjem, jih pustite v razdelku za komentarje.


O avtorjih

Balaji Tummala je inženir za razvoj programske opreme pri Amazon SageMaker. Pomaga pri podpori Amazon SageMaker Data Wrangler in je navdušen nad gradnjo zmogljive in razširljive programske opreme. Zunaj dela rad bere leposlovje in igra odbojko.

Arunprasath Shankar je arhitekt za umetno inteligenco in strojno učenje (AI / ML) Specialist Solutions Architect z AWS, ki svetovnim strankam pomaga, da svoje rešitve AI učinkovito in uspešno lestvijo v oblaku. V prostem času Arun rad gleda znanstvenofantastične filme in posluša klasično glasbo.

Vir: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Časovni žig:

Več od Blog za strojno učenje AWS