Amazon SageMaker Data Wrangler este o nouă capacitate de Amazon SageMaker ceea ce face ca oamenii de știință și inginerii de date să pregătească mai rapid datele pentru aplicații de învățare automată (ML) printr-o interfață vizuală. Pregătirea datelor este un pas crucial al ciclului de viață ML, iar Data Wrangler oferă o soluție end-to-end pentru a importa, pregăti, transforma, prezenta și analiza date pentru ML într-o experiență simplă, vizuală, low-code. Vă permite să vă conectați ușor și rapid la componentele AWS, cum ar fi Serviciul Amazon de stocare simplă (Amazon S3), Amazon Atena, Amazon RedShift, și Formația lacului AWSși surse externe precum Snowflake. Data Wrangler acceptă și tipuri de date standard, cum ar fi CSV și Parquet.
Data Wrangler acceptă acum, în plus, Optimized Row Columnar (CRO), formate de fișiere JavaScript Object Notation (JSON) și JSON Lines (JSONL):
- CRO – Formatul de fișier ORC oferă o modalitate foarte eficientă de stocare a datelor Hive. A fost conceput pentru a depăși limitările celorlalte formate de fișiere Hive. Folosirea fișierelor ORC îmbunătățește performanța atunci când Hive citește, scrie și procesează date. ORC este utilizat pe scară largă în ecosistemul Hadoop.
- JSON – Formatul de fișier JSON este un format de schimb de date ușor, utilizat în mod obișnuit.
- JSONL – Liniile JSON, numite și JSON delimitat de linie nouă, este un format convenabil pentru stocarea datelor structurate care pot fi procesate câte o înregistrare la un moment dat.
Puteți previzualiza datele ORC, JSON și JSONL înainte de a importa seturile de date în Data Wrangler. După ce importați datele, puteți utiliza și unul dintre transformatoarele nou lansate pentru a lucra cu coloane care conțin șiruri JSON sau matrice care se găsesc în mod obișnuit în JSON imbricate.
Importați și analizați datele ORC cu Data Wrangler
Importul datelor ORC în Data Wrangler este ușor și similar cu importarea fișierelor în orice alte formate acceptate. Navigați la fișierul dvs. ORC în Amazon S3 și în DETALII panoul, alegeți ORC ca tip de fișier în timpul importului.
Dacă sunteți nou la Data Wrangler, revizuiți Începeți cu Data Wrangler. De asemenea, vezi Import pentru a afla despre diferitele opțiuni de import.
Importați și analizați datele JSON cu Data Wrangler
Acum să importăm fișiere în format JSON cu Data Wrangler și să lucrăm cu coloane care conțin șiruri sau matrice JSON. De asemenea, demonstrăm cum să faceți față JSON-urilor imbricate. Cu Data Wrangler, importarea fișierelor JSON de pe Amazon S3 este un proces fără întreruperi. Acest lucru este similar cu importarea fișierelor în orice alte formate acceptate. După ce importați fișierele, puteți previzualiza fișierele JSON așa cum se arată în următoarea captură de ecran. Asigurați-vă că setați tipul fișierului la JSON în fișierul DETALII panoul.
Apoi, să lucrăm la coloanele structurate din fișierul JSON importat.
Pentru a face față coloanelor structurate din fișierele JSON, Data Wrangler introduce două transformări noi: Aplatizați coloana structurată și Explodare coloană matrice, care poate fi găsit sub Maner coloana structurata opțiune în ADĂUGAȚI TRANSFORMARE panoul.
Să începem prin a aplica Explodare coloană matrice transforma într-una dintre coloanele din datele noastre importate. Înainte de a aplica transformarea, putem vedea coloana topping
este o matrice de obiecte JSON cu id
și type
chei.
După ce aplicăm transformarea, putem observa noile rânduri adăugate ca rezultat. Fiecare element din matrice este acum un nou rând în DataFrame rezultat.
Acum să aplicăm Aplatizați coloana structurată transforma pe topping_flattened
coloană care a fost creată ca urmare a Explodare coloană matrice transformarea pe care am aplicat-o în pasul anterior.
Înainte de a aplica transformarea, putem vedea cheile id
și type
în topping_flattened
coloana.
După aplicarea transformării, acum putem observa cheile id
și type
în temeiul topping_flattened
coloana ca coloane noi topping_flattened_id
și topping_flattened_type
, care sunt create ca urmare a transformării. De asemenea, aveți opțiunea de a aplatiza numai anumite chei introducând numele cheilor separate prin virgulă pentru Chei de aplatizat. Dacă sunt lăsate goale, toate cheile din șirul sau structura JSON sunt aplatizate.
Concluzie
În această postare, am demonstrat cum să importați cu ușurință formatele de fișiere în ORC și JSON cu Data Wrangler. De asemenea, am aplicat transformările nou lansate care ne permit să transformăm orice coloane structurate în date JSON. Acest lucru face ca lucrul cu coloane care conțin șiruri sau matrice JSON să fie o experiență perfectă.
Ca pași următori, vă recomandăm să replicați exemplele demonstrate în propria interfață vizuală Data Wrangler. Dacă aveți întrebări legate de Data Wrangler, nu ezitați să le lăsați în secțiunea de comentarii.
Despre Autori
Balaji Tummala este inginer de dezvoltare software la Amazon SageMaker. El ajută la sprijinirea Amazon SageMaker Data Wrangler și este pasionat de crearea de software performant și scalabil. În afara serviciului, îi place să citească ficțiune și să joace volei.
Arunprasath Shankar este un arhitect specializat în soluții de inteligență artificială și învățare automată (AI / ML) cu AWS, ajutând clienții globali să își scaleze soluțiile de AI în mod eficient și eficient în cloud. În timpul liber, lui Arun îi place să urmărească filme SF și să asculte muzică clasică.
- '
- 100
- Despre Noi
- AI
- TOATE
- Amazon
- Amazon SageMaker
- Apache
- aplicatii
- artificial
- inteligență artificială
- Inteligența artificială și învățarea în mașină
- AWS
- Clădire
- Cloud
- Coloană
- clienţii care
- de date
- afacere
- Dezvoltare
- în timpul
- cu ușurință
- ecosistem
- inginer
- inginerii
- experienţă
- mai repede
- Ficţiune
- format
- găsit
- Gratuit
- Caritate
- Hadoop
- ajută
- extrem de
- Stup
- Cum
- Cum Pentru a
- HTTPS
- importatoare
- Inteligență
- IT
- JavaScript
- Cheie
- chei
- AFLAȚI
- învăţare
- Ascultare
- masina de învățare
- ML
- Filme
- Muzică
- nume
- Opțiune
- Opţiuni
- Altele
- performanță
- Anunţ
- proces
- furnizează
- Citind
- recomanda
- record
- revizuiască
- sagemaker
- scalabil
- Scară
- oamenii de stiinta
- fără sudură
- set
- asemănător
- simplu
- Software
- de dezvoltare de software
- soluţii
- Începe
- început
- depozitare
- stoca
- a sustine
- Suportat
- Sprijină
- timp
- Transforma
- Transformare
- us
- pe larg
- Apartamente
- de lucru
- scris