Valmistage ette ja analüüsige JSON- ja ORC-andmeid rakendusega Amazon SageMaker Data Wrangler

Allikasõlm: 1600106

Amazon SageMaker Data Wrangler on uus võimalus Amazon SageMaker mis muudab andmeteadlaste ja inseneride jaoks visuaalse liidese kaudu andmete ettevalmistamise masinõppe (ML) rakenduste jaoks kiiremini. Andmete ettevalmistamine on ML-i elutsükli oluline samm ja Data Wrangler pakub täielikku lahendust ML-i andmete importimiseks, ettevalmistamiseks, teisendamiseks, esitlemiseks ja analüüsimiseks sujuva, visuaalse ja vähese koodiga kogemusega. See võimaldab teil hõlpsalt ja kiiresti ühendada AWS-i komponentidega, nagu Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane niheja AWS järve kihistuja välistest allikatest nagu Snowflake. Data Wrangler toetab ka standardseid andmetüüpe, nagu CSV ja Parkett.

Data Wrangler toetab nüüd ka optimeeritud reaveeru (CRO), JavaScript Object Notation (JSON) ja JSON Lines (JSONL) failivormingud:

  • CRO – ORC-failivorming pakub väga tõhusat viisi Hive'i andmete salvestamiseks. See loodi teiste Hive failivormingute piirangute ületamiseks. ORC-failide kasutamine parandab jõudlust, kui Hive loeb, kirjutab ja töötleb andmeid. ORC-d kasutatakse Hadoopi ökosüsteemis laialdaselt.
  • JSON – JSON-failivorming on kerge, tavaliselt kasutatav andmevahetuse vorming.
  • JSONL – JSON-liinid, mida nimetatakse ka reavahetusega eraldatud JSON-iks, on mugav vorming struktureeritud andmete salvestamiseks, mida saab töödelda ühe kirje kaupa.

Enne andmekogumite importimist Data Wranglerisse saate ORC-, JSON- ja JSONL-andmete eelvaateid vaadata. Pärast andmete importimist saate kasutada ka üht äsja käivitatud trafodest, et töötada veergudega, mis sisaldavad JSON-stringe või massiive, mida tavaliselt leidub pesastatud JSON-ides.

Importige ja analüüsige ORC-andmeid Data Wrangleriga

ORC-andmete importimine on Data Wrangleris lihtne ja sarnaneb muudes toetatud vormingutes failide importimisega. Sirvige oma ORC-faili rakenduses Amazon S3 ja rakenduses Detailid paanil valige importimise ajal failitüübiks ORC.

Kui olete Data Wrangleri uus kasutaja, vaadake üle Alustage Data Wrangleriga. Vaata ka Import et saada teavet erinevate impordivõimaluste kohta.

Importige ja analüüsige JSON-andmeid Data Wrangleriga

Impordime nüüd failid JSON-vormingus Data Wrangleriga ja töötame veergudega, mis sisaldavad JSON-stringe või massiive. Näitame ka, kuidas pesastatud JSON-idega hakkama saada. Data Wrangleri abil on JSON-failide importimine Amazon S3-st sujuv protsess. See sarnaneb muudes toetatud vormingutes failide importimisega. Pärast failide importimist saate vaadata JSON-failide eelvaateid, nagu on näidatud järgmisel ekraanipildil. Määrake failitüübiks kindlasti JSON Detailid pane.

Järgmisena töötame imporditud JSON-faili struktureeritud veergudega.

JSON-failide struktureeritud veergudega tegelemiseks tutvustab Data Wrangler kahte uut teisendust: Tasandage struktureeritud veerg ja Plahvata massiivi veerg, mille leiate all Käepide struktureeritud veergu valik LISA TRANSFORM pane.

Alustame rakendusega Plahvata massiivi veerg teisendada ühte meie imporditud andmete veergu. Enne teisenduse rakendamist näeme veergu topping on JSON-objektide massiiv id ja type võtmed.

Pärast teisenduse rakendamist saame jälgida selle tulemusena lisatud uusi ridu. Iga massiivi element on nüüd tulemuseks olevas DataFrame'is uus rida.

Nüüd rakendame Tasandage struktureeritud veerg ümber kujundada topping_flattened veerus, mis loodi tulemusel Plahvata massiivi veerg teisendus, mida rakendasime eelmises etapis.

Enne teisenduse rakendamist näeme võtmeid id ja type aasta topping_flattened kolonni.

Pärast teisenduse rakendamist saame nüüd klahve jälgida id ja type Vastavalt topping_flattened veergu uute veergudena topping_flattened_id ja topping_flattened_type, mis tekivad teisenduse tulemusena. Teil on ka võimalus tasandada ainult teatud klahvid, sisestades nende jaoks komadega eraldatud klahvinimed Klahvid lamendamiseks. Kui jätate tühjaks, on kõik JSON-stringis või struktuuris olevad võtmed tasandatud.

Järeldus

Selles postituses näitasime, kuidas failivorminguid Data Wrangleri abil hõlpsalt importida ORC- ja JSON-vormingus. Rakendasime ka äsja käivitatud teisendusi, mis võimaldavad meil muuta JSON-andmete mis tahes struktureeritud veerge. See muudab JSON-stringe või massiive sisaldavate veergudega töötamise sujuvaks.

Järgmiste sammudena soovitame teil demonstreeritud näiteid oma Data Wrangleri visuaalses liideses kopeerida. Kui teil on Data Wrangleriga seotud küsimusi, jätke need kommentaaride jaotisse.


Autoritest

Balaji Tummala on Amazon SageMakeri tarkvaraarenduse insener. Ta aitab toetada Amazon SageMaker Data Wranglerit ja on kirglik jõudlusliku ja skaleeritava tarkvara loomise vastu. Väljaspool tööd meeldib talle lugeda ilukirjandust ja mängida võrkpalli.

Arunprasath Shankar on tehisintellekti ja masinõppe (AI/ML) spetsialistlahenduste arhitekt koos AWS-iga, mis aitab globaalsetel klientidel oma tehisintellekti ja masinõppe lahendusi pilves tõhusalt skaleerida. Vabal ajal vaatab Arun meelsasti ulmefilme ja kuulab klassikalist muusikat.

Allikas: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Ajatempel:

Veel alates AWS-i masinõppe ajaveeb