Valmistele ja analysoi JSON- ja ORC-tietoja Amazon SageMaker Data Wranglerin avulla

Lähdesolmu: 1600106

Amazon SageMaker Data Wrangler on uusi ominaisuus Amazon Sage Maker Tämä tekee datatieteilijöille ja insinööreille nopeampaa valmistella dataa koneoppimissovelluksiin (ML) visuaalisen käyttöliittymän kautta. Tietojen valmistelu on ratkaiseva vaihe ML-elinkaaressa, ja Data Wrangler tarjoaa päästä päähän -ratkaisun ML-tietojen tuomiseen, valmistelemiseen, muuntamiseen, esittelyyn ja analysoimiseen saumattomassa, visuaalisessa ja matalakoodikokemuksessa. Sen avulla voit helposti ja nopeasti muodostaa yhteyden AWS-komponentteihin, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirtoja AWS-järvien muodostuminenja ulkoiset lähteet, kuten Snowflake. Data Wrangler tukee myös vakiotietotyyppejä, kuten CSV ja Parquet.

Data Wrangler tukee nyt lisäksi optimoitua rivisaraketta (ORC), JavaScript Object Notation (JSON) ja JSON Lines (JSONL) -tiedostomuodot:

  • ORC – ORC-tiedostomuoto tarjoaa erittäin tehokkaan tavan tallentaa Hive-tietoja. Se on suunniteltu voittamaan muiden Hive-tiedostomuotojen rajoitukset. ORC-tiedostojen käyttö parantaa suorituskykyä, kun Hive lukee, kirjoittaa ja käsittelee tietoja. ORC:tä käytetään laajasti Hadoop-ekosysteemissä.
  • JSON – JSON-tiedostomuoto on kevyt, yleisesti käytetty tiedonsiirtomuoto.
  • JSONL – JSON Lines, jota kutsutaan myös rivillä erotetuksi JSONiksi, on kätevä muoto strukturoidun tiedon tallentamiseen, jota voidaan käsitellä tietue kerrallaan.

Voit esikatsella ORC-, JSON- ja JSONL-tietoja ennen kuin tuot tietojoukot Data Wrangleriin. Kun olet tuonut tiedot, voit myös käyttää jotakin äskettäin käynnistetyistä muuntajista työskennelläksesi sarakkeiden kanssa, jotka sisältävät JSON-merkkijonoja tai -taulukoita, joita yleensä löytyy sisäkkäisistä JSON-tiedostoista.

Tuo ja analysoi ORC-tietoja Data Wranglerilla

ORC-tietojen tuonti Data Wranglerissa on helppoa ja samanlaista kuin tiedostojen tuominen muissa tuetuissa muodoissa. Selaa ORC-tiedostoosi Amazon S3:ssa ja YKSITYISKOHDAT -ruudussa, valitse tiedostotyypiksi ORC tuonnin aikana.

Jos olet uusi Data Wranglerin käyttäjä, tarkista Aloita Data Wranglerin käyttö. Katso myös Tuo oppiaksesi eri tuontivaihtoehdoista.

Tuo ja analysoi JSON-tietoja Data Wranglerilla

Tuodaan nyt tiedostot JSON-muodossa Data Wranglerilla ja työskentelemme sarakkeiden kanssa, jotka sisältävät JSON-merkkijonoja tai -taulukoita. Osoitamme myös, kuinka sisäkkäisiä JSON-tiedostoja käsitellään. Data Wranglerin avulla JSON-tiedostojen tuonti Amazon S3:sta on saumaton prosessi. Tämä on samanlaista kuin tiedostojen tuominen muissa tuetuissa muodoissa. Kun olet tuonut tiedostot, voit esikatsella JSON-tiedostoja seuraavan kuvakaappauksen mukaisesti. Varmista, että määrität tiedostotyypiksi JSON YKSITYISKOHDAT ruudussa.

Seuraavaksi käsitellään strukturoituja sarakkeita tuodussa JSON-tiedostossa.

Käsitelläkseen JSON-tiedostojen strukturoituja sarakkeita Data Wrangler esittelee kaksi uutta muutosta: Tasoita rakenteellinen pylväs ja Explode array sarake, joka löytyy alta Käsittele strukturoitua saraketta vaihtoehto LISÄÄ MUUTOS ruudussa.

Aloitetaan soveltamalla Explode array sarake muuntaa joksikin tuotujen tietojen sarakkeista. Ennen muunnoksen soveltamista voimme nähdä sarakkeen topping on joukko JSON-objekteja, joissa on id ja type avaimet.

Kun muunnos on otettu käyttöön, voimme tarkkailla tuloksena lisättyjä uusia rivejä. Jokainen taulukon elementti on nyt uusi rivi tuloksena olevassa DataFrame-kehyksessä.

Nyt sovelletaan Tasoita rakenteellinen pylväs muuttaa päälle topping_flattened sarake, joka luotiin tuloksena Explode array sarake muunnos, jota käytimme edellisessä vaiheessa.

Ennen muunnoksen käyttöönottoa voimme nähdä avaimet id ja type vuonna topping_flattened sarake.

Kun muunnos on otettu käyttöön, voimme nyt tarkkailla avaimia id ja type alla topping_flattened sarake uusina sarakkeina topping_flattened_id ja topping_flattened_type, jotka syntyvät muunnoksen seurauksena. Voit myös litistää vain tiettyjä näppäimiä kirjoittamalla pilkuilla eroteltujen avainten nimet Avaimet litistettäväksi. Jos jätetään tyhjäksi, kaikki JSON-merkkijonon tai -rakenteen avaimet litistetään.

Yhteenveto

Tässä viestissä osoitimme kuinka tuoda tiedostomuotoja ORC- ja JSON-muodoissa helposti Data Wranglerin avulla. Käytimme myös äskettäin lanseerattuja muunnoksia, joiden avulla voimme muuttaa JSON-tietojen strukturoituja sarakkeita. Tämä tekee työstä sarakkeiden kanssa, jotka sisältävät JSON-merkkijonoja tai -taulukoita, saumattoman kokemuksen.

Seuraavina vaiheina suosittelemme, että kopioit esitetyt esimerkit omassa Data Wrangler -visuaalisessa käyttöliittymässäsi. Jos sinulla on Data Wrangleriin liittyviä kysymyksiä, jätä ne kommenttiosioon.


Tietoja Tekijät

Balaji Tummala on ohjelmistokehitysinsinööri Amazon SageMakerissa. Hän auttaa tukemaan Amazon SageMaker Data Wrangleria ja on intohimoinen tehokkaiden ja skaalautuvien ohjelmistojen rakentamiseen. Työn ulkopuolella hän lukee kaunokirjallisuutta ja pelaa lentopalloa.

Arunprasath Shankar on tekoälyn ja koneoppimisen (AI / ML) asiantuntijaratkaisuarkkitehti AWS: n kanssa, joka auttaa globaaleja asiakkaita skaalautumaan tekoälyratkaisuihinsa tehokkaasti ja tehokkaasti pilvessä. Vapaa-ajallaan Arun nauttii scifi-elokuvien katsomisesta ja klassisen musiikin kuuntelusta.

Lähde: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Aikaleima:

Lisää aiheesta AWS-koneoppimisblogi