JSON és ORC adatok előkészítése és elemzése az Amazon SageMaker Data Wrangler segítségével

Forrás csomópont: 1600106

Amazon SageMaker Data Wrangler új képessége Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára, hogy vizuális felületen keresztül készítsenek adatokat gépi tanulási (ML) alkalmazásokhoz. Az adatok előkészítése az ML életciklusának döntő lépése, és a Data Wrangler teljes körű megoldást kínál az ML-hez szükséges adatok importálására, előkészítésére, átalakítására, jellemzőire és elemzésére zökkenőmentes, vizuális, alacsony kódú élményben. Segítségével egyszerűen és gyorsan csatlakozhat olyan AWS-komponensekhez, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShiftés AWS-tó formáció, és olyan külső források, mint a Snowflake. A Data Wrangler olyan szabványos adattípusokat is támogat, mint a CSV és a Parquet.

A Data Wrangler mostantól emellett támogatja az optimalizált soroszlopot (ORC), JavaScript Object Notation (JSON) és JSON Lines (JSONL) fájlformátumok:

  • ORC – Az ORC fájlformátum rendkívül hatékony módot biztosít a Hive-adatok tárolására. Úgy tervezték, hogy leküzdje a többi Hive fájlformátum korlátait. Az ORC-fájlok használata javítja a teljesítményt, amikor a Hive adatokat olvas, ír és dolgoz fel. Az ORC-t széles körben használják a Hadoop ökoszisztémában.
  • JSON – A JSON fájlformátum egy könnyű, gyakran használt adatcsere-formátum.
  • JSONL – A JSON-vonalak, más néven újsor-elválasztott JSON, kényelmes formátum a strukturált adatok tárolására, amelyek egyszerre egy rekordot dolgoznak fel.

Az adatkészletek Data Wranglerbe történő importálása előtt megtekintheti az ORC, JSON és JSONL adatok előnézetét. Az adatok importálása után az újonnan elindított transzformátorok egyikét is használhatja a beágyazott JSON-fájlokban gyakran előforduló JSON-karakterláncokat vagy tömböket tartalmazó oszlopok kezelésére.

Importálja és elemezze az ORC-adatokat a Data Wrangler segítségével

Az ORC adatok importálása a Data Wranglerben egyszerű, és hasonló a többi támogatott formátumú fájlok importálásához. Keresse meg az ORC-fájlt az Amazon S3-ban és a KELLÉKEK ablakban válassza az ORC fájltípust az importálás során.

Ha még nem ismeri a Data Wranglert, tekintse át Ismerkedjen meg a Data Wranglerrel. Továbbá lásd import hogy megismerje a különféle importálási lehetőségeket.

JSON-adatok importálása és elemzése a Data Wrangler segítségével

Most importáljunk fájlokat JSON formátumban a Data Wrangler segítségével, és dolgozzunk olyan oszlopokkal, amelyek JSON karakterláncokat vagy tömböket tartalmaznak. Azt is bemutatjuk, hogyan kell kezelni a beágyazott JSON-okat. A Data Wrangler segítségével a JSON-fájlok importálása az Amazon S3-ból zökkenőmentes folyamat. Ez hasonló bármely más támogatott formátumú fájlok importálásához. A fájlok importálása után megtekintheti a JSON-fájlok előnézetét az alábbi képernyőképen látható módon. Ügyeljen arra, hogy a fájltípust JSON-ra állítsa a KELLÉKEK ablaktábla.

Ezután dolgozzunk az importált JSON-fájl strukturált oszlopain.

A JSON-fájlok strukturált oszlopainak kezelésére a Data Wrangler két új átalakítást vezet be: Strukturált oszlop lapítása és a Tömboszlop felrobbanásaalatt található Kezelje a strukturált oszlopot lehetőség a TRANSFORMÁCIÓ HOZZÁADÁSA ablaktábla.

Kezdjük azzal, hogy alkalmazzuk a Tömboszlop felrobbanása átalakítani az importált adataink egyik oszlopába. A transzformáció alkalmazása előtt láthatjuk az oszlopot topping JSON-objektumok tömbje id és a type kulcsok.

A transzformáció alkalmazása után megfigyelhetjük az eredményeként hozzáadott új sorokat. A tömb minden eleme most egy új sor az eredményül kapott DataFrame-ben.

Most alkalmazzuk a Strukturált oszlop lapítása átalakítani a topping_flattened oszlop eredményeként jött létre Tömboszlop felrobbanása transzformációt alkalmaztunk az előző lépésben.

A transzformáció alkalmazása előtt láthatjuk a kulcsokat id és a type a topping_flattened oszlop.

A transzformáció alkalmazása után most már megfigyelhetjük a kulcsokat id és a type alatt a topping_flattened oszlopot új oszlopként topping_flattened_id és a topping_flattened_type, amelyek az átalakítás eredményeként jönnek létre. Lehetősége van arra is, hogy csak bizonyos billentyűket simítsa ki a kulcsnevek vesszővel elválasztott megadásával Kulcsok lelapításához. Ha üresen hagyja, a JSON-karakterláncon vagy struktúrán belüli összes kulcs le lesz simítva.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet egyszerűen importálni fájlformátumokat ORC-ben és JSON-ban a Data Wrangler segítségével. Alkalmaztuk az újonnan elindított átalakításokat is, amelyek lehetővé teszik a JSON-adatok bármely strukturált oszlopának átalakítását. Ez zökkenőmentessé teszi a JSON-karakterláncokat vagy tömböket tartalmazó oszlopokkal való munkát.

Következő lépésként azt javasoljuk, hogy reprodukálja a bemutatott példákat a saját Data Wrangler vizuális felületén. Ha bármilyen kérdése van a Data Wranglerrel kapcsolatban, nyugodtan tegye fel a megjegyzés rovatban.


A szerzőkről

Balaji Tummala az Amazon SageMaker szoftverfejlesztő mérnöke. Segít az Amazon SageMaker Data Wrangler támogatásában, és szenvedélyesen fejleszti a nagy teljesítményű és méretezhető szoftvereket. Munkán kívül szeret szépirodalmat olvasni és röplabdázni.

Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.

Forrás: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Időbélyeg:

Még több AWS gépi tanulási blog