Amazon SageMaker Data Wrangler új képessége Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára, hogy vizuális felületen keresztül készítsenek adatokat gépi tanulási (ML) alkalmazásokhoz. Az adatok előkészítése az ML életciklusának döntő lépése, és a Data Wrangler teljes körű megoldást kínál az ML-hez szükséges adatok importálására, előkészítésére, átalakítására, jellemzőire és elemzésére zökkenőmentes, vizuális, alacsony kódú élményben. Segítségével egyszerűen és gyorsan csatlakozhat olyan AWS-komponensekhez, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShiftés AWS-tó formáció, és olyan külső források, mint a Snowflake. A Data Wrangler olyan szabványos adattípusokat is támogat, mint a CSV és a Parquet.
A Data Wrangler mostantól emellett támogatja az optimalizált soroszlopot (ORC), JavaScript Object Notation (JSON) és JSON Lines (JSONL) fájlformátumok:
- ORC – Az ORC fájlformátum rendkívül hatékony módot biztosít a Hive-adatok tárolására. Úgy tervezték, hogy leküzdje a többi Hive fájlformátum korlátait. Az ORC-fájlok használata javítja a teljesítményt, amikor a Hive adatokat olvas, ír és dolgoz fel. Az ORC-t széles körben használják a Hadoop ökoszisztémában.
- JSON – A JSON fájlformátum egy könnyű, gyakran használt adatcsere-formátum.
- JSONL – A JSON-vonalak, más néven újsor-elválasztott JSON, kényelmes formátum a strukturált adatok tárolására, amelyek egyszerre egy rekordot dolgoznak fel.
Az adatkészletek Data Wranglerbe történő importálása előtt megtekintheti az ORC, JSON és JSONL adatok előnézetét. Az adatok importálása után az újonnan elindított transzformátorok egyikét is használhatja a beágyazott JSON-fájlokban gyakran előforduló JSON-karakterláncokat vagy tömböket tartalmazó oszlopok kezelésére.
Importálja és elemezze az ORC-adatokat a Data Wrangler segítségével
Az ORC adatok importálása a Data Wranglerben egyszerű, és hasonló a többi támogatott formátumú fájlok importálásához. Keresse meg az ORC-fájlt az Amazon S3-ban és a KELLÉKEK ablakban válassza az ORC fájltípust az importálás során.
Ha még nem ismeri a Data Wranglert, tekintse át Ismerkedjen meg a Data Wranglerrel. Továbbá lásd import hogy megismerje a különféle importálási lehetőségeket.
JSON-adatok importálása és elemzése a Data Wrangler segítségével
Most importáljunk fájlokat JSON formátumban a Data Wrangler segítségével, és dolgozzunk olyan oszlopokkal, amelyek JSON karakterláncokat vagy tömböket tartalmaznak. Azt is bemutatjuk, hogyan kell kezelni a beágyazott JSON-okat. A Data Wrangler segítségével a JSON-fájlok importálása az Amazon S3-ból zökkenőmentes folyamat. Ez hasonló bármely más támogatott formátumú fájlok importálásához. A fájlok importálása után megtekintheti a JSON-fájlok előnézetét az alábbi képernyőképen látható módon. Ügyeljen arra, hogy a fájltípust JSON-ra állítsa a KELLÉKEK ablaktábla.
Ezután dolgozzunk az importált JSON-fájl strukturált oszlopain.
A JSON-fájlok strukturált oszlopainak kezelésére a Data Wrangler két új átalakítást vezet be: Strukturált oszlop lapítása és a Tömboszlop felrobbanásaalatt található Kezelje a strukturált oszlopot lehetőség a TRANSFORMÁCIÓ HOZZÁADÁSA ablaktábla.
Kezdjük azzal, hogy alkalmazzuk a Tömboszlop felrobbanása átalakítani az importált adataink egyik oszlopába. A transzformáció alkalmazása előtt láthatjuk az oszlopot topping
JSON-objektumok tömbje id
és a type
kulcsok.
A transzformáció alkalmazása után megfigyelhetjük az eredményeként hozzáadott új sorokat. A tömb minden eleme most egy új sor az eredményül kapott DataFrame-ben.
Most alkalmazzuk a Strukturált oszlop lapítása átalakítani a topping_flattened
oszlop eredményeként jött létre Tömboszlop felrobbanása transzformációt alkalmaztunk az előző lépésben.
A transzformáció alkalmazása előtt láthatjuk a kulcsokat id
és a type
a topping_flattened
oszlop.
A transzformáció alkalmazása után most már megfigyelhetjük a kulcsokat id
és a type
alatt a topping_flattened
oszlopot új oszlopként topping_flattened_id
és a topping_flattened_type
, amelyek az átalakítás eredményeként jönnek létre. Lehetősége van arra is, hogy csak bizonyos billentyűket simítsa ki a kulcsnevek vesszővel elválasztott megadásával Kulcsok lelapításához. Ha üresen hagyja, a JSON-karakterláncon vagy struktúrán belüli összes kulcs le lesz simítva.
Következtetés
Ebben a bejegyzésben bemutattuk, hogyan lehet egyszerűen importálni fájlformátumokat ORC-ben és JSON-ban a Data Wrangler segítségével. Alkalmaztuk az újonnan elindított átalakításokat is, amelyek lehetővé teszik a JSON-adatok bármely strukturált oszlopának átalakítását. Ez zökkenőmentessé teszi a JSON-karakterláncokat vagy tömböket tartalmazó oszlopokkal való munkát.
Következő lépésként azt javasoljuk, hogy reprodukálja a bemutatott példákat a saját Data Wrangler vizuális felületén. Ha bármilyen kérdése van a Data Wranglerrel kapcsolatban, nyugodtan tegye fel a megjegyzés rovatban.
A szerzőkről
Balaji Tummala az Amazon SageMaker szoftverfejlesztő mérnöke. Segít az Amazon SageMaker Data Wrangler támogatásában, és szenvedélyesen fejleszti a nagy teljesítményű és méretezhető szoftvereket. Munkán kívül szeret szépirodalmat olvasni és röplabdázni.
Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.
- '
- 100
- Rólunk
- AI
- Minden termék
- amazon
- Amazon SageMaker
- Apache
- alkalmazások
- mesterséges
- mesterséges intelligencia
- Mesterséges intelligencia és gépi tanulás
- AWS
- Épület
- felhő
- Oszlop
- Ügyfelek
- dátum
- üzlet
- Fejlesztés
- alatt
- könnyen
- ökoszisztéma
- mérnök
- Mérnökök
- tapasztalat
- gyorsabb
- Fiction
- formátum
- talált
- Ingyenes
- Globális
- Hadoop
- segít
- nagyon
- Kaptár
- Hogyan
- How To
- HTTPS
- importáló
- Intelligencia
- IT
- JavaScript
- Kulcs
- kulcsok
- TANUL
- tanulás
- Kihallgatás
- gépi tanulás
- ML
- Filmek
- zene
- nevek
- opció
- Opciók
- Más
- teljesítmény
- Preview
- folyamat
- biztosít
- Olvasás
- ajánl
- rekord
- Kritika
- sagemaker
- skálázható
- Skála
- tudósok
- zökkenőmentes
- készlet
- hasonló
- Egyszerű
- szoftver
- szoftverfejlesztés
- Megoldások
- kezdet
- kezdődött
- tárolás
- tárolni
- támogatás
- Támogatott
- Támogatja
- idő
- Átalakítás
- Átalakítás
- us
- széles körben
- Munka
- dolgozó
- írás