Amazon SageMaker Data Wrangler on uus võimalus Amazon SageMaker mis muudab andmeteadlaste ja inseneride jaoks visuaalse liidese kaudu andmete ettevalmistamise masinõppe (ML) rakenduste jaoks kiiremini. Andmete ettevalmistamine on ML-i elutsükli oluline samm ja Data Wrangler pakub täielikku lahendust ML-i andmete importimiseks, ettevalmistamiseks, teisendamiseks, esitlemiseks ja analüüsimiseks sujuva, visuaalse ja vähese koodiga kogemusega. See võimaldab teil hõlpsalt ja kiiresti ühendada AWS-i komponentidega, nagu Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane niheja AWS järve kihistuja välistest allikatest nagu Snowflake. Data Wrangler toetab ka standardseid andmetüüpe, nagu CSV ja Parkett.
Data Wrangler toetab nüüd ka optimeeritud reaveeru (CRO), JavaScript Object Notation (JSON) ja JSON Lines (JSONL) failivormingud:
- CRO – ORC-failivorming pakub väga tõhusat viisi Hive'i andmete salvestamiseks. See loodi teiste Hive failivormingute piirangute ületamiseks. ORC-failide kasutamine parandab jõudlust, kui Hive loeb, kirjutab ja töötleb andmeid. ORC-d kasutatakse Hadoopi ökosüsteemis laialdaselt.
- JSON – JSON-failivorming on kerge, tavaliselt kasutatav andmevahetuse vorming.
- JSONL – JSON-liinid, mida nimetatakse ka reavahetusega eraldatud JSON-iks, on mugav vorming struktureeritud andmete salvestamiseks, mida saab töödelda ühe kirje kaupa.
Enne andmekogumite importimist Data Wranglerisse saate ORC-, JSON- ja JSONL-andmete eelvaateid vaadata. Pärast andmete importimist saate kasutada ka üht äsja käivitatud trafodest, et töötada veergudega, mis sisaldavad JSON-stringe või massiive, mida tavaliselt leidub pesastatud JSON-ides.
Importige ja analüüsige ORC-andmeid Data Wrangleriga
ORC-andmete importimine on Data Wrangleris lihtne ja sarnaneb muudes toetatud vormingutes failide importimisega. Sirvige oma ORC-faili rakenduses Amazon S3 ja rakenduses Detailid paanil valige importimise ajal failitüübiks ORC.
Kui olete Data Wrangleri uus kasutaja, vaadake üle Alustage Data Wrangleriga. Vaata ka Import et saada teavet erinevate impordivõimaluste kohta.
Importige ja analüüsige JSON-andmeid Data Wrangleriga
Impordime nüüd failid JSON-vormingus Data Wrangleriga ja töötame veergudega, mis sisaldavad JSON-stringe või massiive. Näitame ka, kuidas pesastatud JSON-idega hakkama saada. Data Wrangleri abil on JSON-failide importimine Amazon S3-st sujuv protsess. See sarnaneb muudes toetatud vormingutes failide importimisega. Pärast failide importimist saate vaadata JSON-failide eelvaateid, nagu on näidatud järgmisel ekraanipildil. Määrake failitüübiks kindlasti JSON Detailid pane.
Järgmisena töötame imporditud JSON-faili struktureeritud veergudega.
JSON-failide struktureeritud veergudega tegelemiseks tutvustab Data Wrangler kahte uut teisendust: Tasandage struktureeritud veerg ja Plahvata massiivi veerg, mille leiate all Käepide struktureeritud veergu valik LISA TRANSFORM pane.
Alustame rakendusega Plahvata massiivi veerg teisendada ühte meie imporditud andmete veergu. Enne teisenduse rakendamist näeme veergu topping
on JSON-objektide massiiv id
ja type
võtmed.
Pärast teisenduse rakendamist saame jälgida selle tulemusena lisatud uusi ridu. Iga massiivi element on nüüd tulemuseks olevas DataFrame'is uus rida.
Nüüd rakendame Tasandage struktureeritud veerg ümber kujundada topping_flattened
veerus, mis loodi tulemusel Plahvata massiivi veerg teisendus, mida rakendasime eelmises etapis.
Enne teisenduse rakendamist näeme võtmeid id
ja type
aasta topping_flattened
kolonni.
Pärast teisenduse rakendamist saame nüüd klahve jälgida id
ja type
Vastavalt topping_flattened
veergu uute veergudena topping_flattened_id
ja topping_flattened_type
, mis tekivad teisenduse tulemusena. Teil on ka võimalus tasandada ainult teatud klahvid, sisestades nende jaoks komadega eraldatud klahvinimed Klahvid lamendamiseks. Kui jätate tühjaks, on kõik JSON-stringis või struktuuris olevad võtmed tasandatud.
Järeldus
Selles postituses näitasime, kuidas failivorminguid Data Wrangleri abil hõlpsalt importida ORC- ja JSON-vormingus. Rakendasime ka äsja käivitatud teisendusi, mis võimaldavad meil muuta JSON-andmete mis tahes struktureeritud veerge. See muudab JSON-stringe või massiive sisaldavate veergudega töötamise sujuvaks.
Järgmiste sammudena soovitame teil demonstreeritud näiteid oma Data Wrangleri visuaalses liideses kopeerida. Kui teil on Data Wrangleriga seotud küsimusi, jätke need kommentaaride jaotisse.
Autoritest
Balaji Tummala on Amazon SageMakeri tarkvaraarenduse insener. Ta aitab toetada Amazon SageMaker Data Wranglerit ja on kirglik jõudlusliku ja skaleeritava tarkvara loomise vastu. Väljaspool tööd meeldib talle lugeda ilukirjandust ja mängida võrkpalli.
Arunprasath Shankar on tehisintellekti ja masinõppe (AI/ML) spetsialistlahenduste arhitekt koos AWS-iga, mis aitab globaalsetel klientidel oma tehisintellekti ja masinõppe lahendusi pilves tõhusalt skaleerida. Vabal ajal vaatab Arun meelsasti ulmefilme ja kuulab klassikalist muusikat.
- '
- 100
- MEIST
- AI
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazon SageMaker
- Apache
- rakendused
- kunstlik
- tehisintellekti
- Tehisintellekt ja masinõpe
- AWS
- Ehitus
- Cloud
- Veerg
- Kliendid
- andmed
- tegelema
- & Tarkvaraarendus
- ajal
- kergesti
- ökosüsteemi
- insener
- Inseneride
- kogemus
- kiiremini
- Ilukirjandus
- formaat
- avastatud
- tasuta
- Globaalne
- hadoop
- aitab
- kõrgelt
- Mesilaspere
- Kuidas
- Kuidas
- HTTPS
- importivate
- Intelligentsus
- IT
- JavaScript
- Võti
- võtmed
- Õppida
- õppimine
- Kuulamine
- masinõpe
- ML
- Filmid
- muusika
- nimed
- valik
- Valikud
- Muu
- jõudlus
- Eelvaade
- protsess
- annab
- Lugemine
- soovitama
- rekord
- läbi
- salveitegija
- skaalautuvia
- Skaala
- teadlased
- sujuv
- komplekt
- sarnane
- lihtne
- tarkvara
- tarkvaraarenduse
- Lahendused
- algus
- alustatud
- ladustamine
- salvestada
- toetama
- Toetatud
- Toetab
- aeg
- Muutma
- Transformation
- us
- laialdaselt
- Töö
- töö
- kirjutamine