JSON és ORC adatok előkészítése és elemzése az Amazon SageMaker Data Wrangler segítségével

Újra kiadta Platón

Követő: 0

Amazon SageMaker Data Wrangler új képessége Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára, hogy vizuális felületen keresztül készítsenek adatokat gépi tanulási (ML) alkalmazásokhoz. Az adatok előkészítése az ML életciklusának döntő lépése, és a Data Wrangler teljes körű megoldást kínál az ML-hez szükséges adatok importálására, előkészítésére, átalakítására, jellemzőire és elemzésére zökkenőmentes, vizuális, alacsony kódú élményben. Segítségével egyszerűen és gyorsan csatlakozhat olyan AWS-komponensekhez, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShiftés AWS-tó formáció, és olyan külső források, mint a Snowflake. A Data Wrangler olyan szabványos adattípusokat is támogat, mint a CSV és a Parquet.

A Data Wrangler mostantól emellett támogatja az optimalizált soroszlopot (ORC), JavaScript Object Notation (JSON) és JSON Lines (JSONL) fájlformátumok:

ORC – Az ORC fájlformátum rendkívül hatékony módot biztosít a Hive-adatok tárolására. Úgy tervezték, hogy leküzdje a többi Hive fájlformátum korlátait. Az ORC-fájlok használata javítja a teljesítményt, amikor a Hive adatokat olvas, ír és dolgoz fel. Az ORC-t széles körben használják a Hadoop ökoszisztémában.
JSON – A JSON fájlformátum egy könnyű, gyakran használt adatcsere-formátum.
JSONL – A JSON-vonalak, más néven újsor-elválasztott JSON, kényelmes formátum a strukturált adatok tárolására, amelyek egyszerre egy rekordot dolgoznak fel.

Az adatkészletek Data Wranglerbe történő importálása előtt megtekintheti az ORC, JSON és JSONL adatok előnézetét. Az adatok importálása után az újonnan elindított transzformátorok egyikét is használhatja a beágyazott JSON-fájlokban gyakran előforduló JSON-karakterláncokat vagy tömböket tartalmazó oszlopok kezelésére.

Importálja és elemezze az ORC-adatokat a Data Wrangler segítségével

Az ORC adatok importálása a Data Wranglerben egyszerű, és hasonló a többi támogatott formátumú fájlok importálásához. Keresse meg az ORC-fájlt az Amazon S3-ban és a KELLÉKEK ablakban válassza az ORC fájltípust az importálás során.

Ha még nem ismeri a Data Wranglert, tekintse át Ismerkedjen meg a Data Wranglerrel. Továbbá lásd import hogy megismerje a különféle importálási lehetőségeket.

JSON-adatok importálása és elemzése a Data Wrangler segítségével

Most importáljunk fájlokat JSON formátumban a Data Wrangler segítségével, és dolgozzunk olyan oszlopokkal, amelyek JSON karakterláncokat vagy tömböket tartalmaznak. Azt is bemutatjuk, hogyan kell kezelni a beágyazott JSON-okat. A Data Wrangler segítségével a JSON-fájlok importálása az Amazon S3-ból zökkenőmentes folyamat. Ez hasonló bármely más támogatott formátumú fájlok importálásához. A fájlok importálása után megtekintheti a JSON-fájlok előnézetét az alábbi képernyőképen látható módon. Ügyeljen arra, hogy a fájltípust JSON-ra állítsa a KELLÉKEK ablaktábla.

Ezután dolgozzunk az importált JSON-fájl strukturált oszlopain.

A JSON-fájlok strukturált oszlopainak kezelésére a Data Wrangler két új átalakítást vezet be: Strukturált oszlop lapítása és a Tömboszlop felrobbanásaalatt található Kezelje a strukturált oszlopot lehetőség a TRANSFORMÁCIÓ HOZZÁADÁSA ablaktábla.

Kezdjük azzal, hogy alkalmazzuk a Tömboszlop felrobbanása átalakítani az importált adataink egyik oszlopába. A transzformáció alkalmazása előtt láthatjuk az oszlopot topping JSON-objektumok tömbje id és a type kulcsok.

A transzformáció alkalmazása után megfigyelhetjük az eredményeként hozzáadott új sorokat. A tömb minden eleme most egy új sor az eredményül kapott DataFrame-ben.

Most alkalmazzuk a Strukturált oszlop lapítása átalakítani a topping_flattened oszlop eredményeként jött létre Tömboszlop felrobbanása transzformációt alkalmaztunk az előző lépésben.

A transzformáció alkalmazása előtt láthatjuk a kulcsokat id és a type a topping_flattened oszlop.

A transzformáció alkalmazása után most már megfigyelhetjük a kulcsokat id és a type alatt a topping_flattened oszlopot új oszlopként topping_flattened_id és a topping_flattened_type, amelyek az átalakítás eredményeként jönnek létre. Lehetősége van arra is, hogy csak bizonyos billentyűket simítsa ki a kulcsnevek vesszővel elválasztott megadásával Kulcsok lelapításához. Ha üresen hagyja, a JSON-karakterláncon vagy struktúrán belüli összes kulcs le lesz simítva.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet egyszerűen importálni fájlformátumokat ORC-ben és JSON-ban a Data Wrangler segítségével. Alkalmaztuk az újonnan elindított átalakításokat is, amelyek lehetővé teszik a JSON-adatok bármely strukturált oszlopának átalakítását. Ez zökkenőmentessé teszi a JSON-karakterláncokat vagy tömböket tartalmazó oszlopokkal való munkát.

Következő lépésként azt javasoljuk, hogy reprodukálja a bemutatott példákat a saját Data Wrangler vizuális felületén. Ha bármilyen kérdése van a Data Wranglerrel kapcsolatban, nyugodtan tegye fel a megjegyzés rovatban.

A szerzőkről

Balaji Tummala az Amazon SageMaker szoftverfejlesztő mérnöke. Segít az Amazon SageMaker Data Wrangler támogatásában, és szenvedélyesen fejleszti a nagy teljesítményű és méretezhető szoftvereket. Munkán kívül szeret szépirodalmat olvasni és röplabdázni.

Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.

Forrás: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Időbélyeg: Február 2, 2022

Időbélyeg: May 14, 2021

Újra kiadta Platón

Az Amazon SageMaker segítségével automatikusan észlelheti a sport legfontosabb eseményeit videón

Tervezzen lenyűgöző rekordszűrési módszert az Amazon SageMaker Model Monitor segítségével

Finomhangolja és telepítse a ProtBERT-modellt a fehérjeosztályozáshoz az Amazon SageMaker segítségével

Az Amazon Transcribe és az Amazon Comprehend segítségével kiváló minőségű értekezlet-jegyzeteket készíthet

AWS ML közösségi bemutató: 2021. márciusi kiadás

Bővítse a keresést metaadatokkal az Amazon Textract, az Amazon Comprehend és az Amazon Kendra láncolásával

Hogyan közelítsük meg a beszélgetéstervezést: Az Amazon Lex első lépései (2. rész)

Készítsen adatokat a hitelkockázat előrejelzéséhez az Amazon SageMaker Data Wrangler és az Amazon SageMaker Clarify segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók