Förbered och analysera JSON- och ORC-data med Amazon SageMaker Data Wrangler

Källnod: 1600106

Amazon SageMaker Data Wrangler är en ny förmåga av Amazon SageMaker som gör det snabbare för datavetare och ingenjörer att förbereda data för applikationer för maskininlärning (ML) via ett visuellt gränssnitt. Dataförberedelse är ett avgörande steg i ML-livscykeln, och Data Wrangler tillhandahåller en helhetslösning för att importera, förbereda, transformera, presentera och analysera data för ML i en sömlös, visuell upplevelse med låg kod. Det låter dig enkelt och snabbt ansluta till AWS-komponenter som Amazon enkel lagringstjänst (Amazon S3), Amazonas Athena, Amazon RedShiftoch AWS Lake Formation, och externa källor som Snowflake. Data Wrangler stöder även standarddatatyper som CSV och Parkett.

Data Wrangler stöder nu dessutom Optimized Row Columnar (ORC), JavaScript Object Notation (JSON) och JSON Lines (JSONL) filformat:

  • ORC – ORC-filformatet ger ett mycket effektivt sätt att lagra Hive-data. Den designades för att övervinna begränsningarna hos de andra Hive-filformaten. Att använda ORC-filer förbättrar prestandan när Hive läser, skriver och bearbetar data. ORC används flitigt i Hadoop-ekosystemet.
  • JSON – JSON-filformatet är ett lätt, vanligt förekommande datautbytesformat.
  • JSONL – JSON-linjer, även kallade nylinjeavgränsade JSON, är ett bekvämt format för att lagra strukturerad data som kan bearbetas en post i taget.

Du kan förhandsgranska ORC-, JSON- och JSONL-data innan du importerar datamängderna till Data Wrangler. När du har importerat data kan du också använda en av de nyligen lanserade transformatorerna för att arbeta med kolumner som innehåller JSON-strängar eller arrayer som vanligtvis finns i kapslade JSONs.

Importera och analysera ORC-data med Data Wrangler

Att importera ORC-data är i Data Wrangler är enkelt och liknar att importera filer i andra format som stöds. Bläddra till din ORC-fil i Amazon S3 och i DETALJER rutan, välj ORC som filtyp under importen.

Om du är ny på Data Wrangler, granska Kom igång med Data Wrangler. Se också Importera för att lära dig om de olika importalternativen.

Importera och analysera JSON-data med Data Wrangler

Låt oss nu importera filer i JSON-format med Data Wrangler och arbeta med kolumner som innehåller JSON-strängar eller arrayer. Vi visar också hur man hanterar kapslade JSONs. Med Data Wrangler är import av JSON-filer från Amazon S3 en sömlös process. Detta liknar att importera filer i alla andra format som stöds. När du har importerat filerna kan du förhandsgranska JSON-filerna som visas i följande skärmdump. Se till att ställa in filtypen till JSON i DETALJER rutan.

Låt oss sedan arbeta med strukturerade kolumner i den importerade JSON-filen.

För att hantera strukturerade kolumner i JSON-filer, introducerar Data Wrangler två nya transformationer: Platta ut strukturerad kolumn och Explodera array kolumn, som finns under Hantera strukturerad kolumn alternativet i LÄGG TILL TRANSFORM rutan.

Låt oss börja med att tillämpa Explodera array kolumn transformera till en av kolumnerna i våra importerade data. Innan vi tillämpar transformationen kan vi se kolumnen topping är en array av JSON-objekt med id och type nycklar.

Efter att vi tillämpat transformationen kan vi observera de nya raderna som läggs till som ett resultat. Varje element i arrayen är nu en ny rad i den resulterande DataFrame.

Låt oss nu tillämpa Platta ut strukturerad kolumn förvandla på topping_flattened kolumn som skapades som ett resultat av Explodera array kolumn transformation vi tillämpade i föregående steg.

Innan vi tillämpar transformationen kan vi se nycklarna id och type i topping_flattened kolonn.

Efter att ha tillämpat transformationen kan vi nu observera nycklarna id och type under topping_flattened kolumn som nya kolumner topping_flattened_id och topping_flattened_type, som skapas som ett resultat av omvandlingen. Du har också möjlighet att platta till endast specifika nycklar genom att ange de kommaseparerade nyckelnamnen för Nycklar att platta på. Om de lämnas tomma, är alla nycklar inuti JSON-strängen eller strukturen tillplattade.

Slutsats

I det här inlägget demonstrerade vi hur man enkelt importerar filformat i ORC och JSON med Data Wrangler. Vi tillämpade också de nyligen lanserade transformationerna som gör att vi kan transformera alla strukturerade kolumner i JSON-data. Detta gör att arbeta med kolumner som innehåller JSON-strängar eller arrayer till en sömlös upplevelse.

Som nästa steg rekommenderar vi att du replikerar de demonstrerade exemplen i ditt eget visuella Data Wrangler-gränssnitt. Om du har några frågor relaterade till Data Wrangler, lämna dem gärna i kommentarsfältet.


Om författarna

Balaji Tummala är en mjukvaruutvecklingsingenjör på Amazon SageMaker. Han hjälper till att stödja Amazon SageMaker Data Wrangler och brinner för att bygga prestanda och skalbar programvara. Utanför jobbet tycker han om att läsa skönlitteratur och spela volleyboll.

Arunprasath Shankar är en artificiell intelligens och maskininlärning (AI / ML) specialistlösningsarkitekt med AWS, som hjälper globala kunder att skala sina AI-lösningar effektivt och effektivt i molnet. På fritiden tycker Arun om att titta på sci-fi-filmer och lyssna på klassisk musik.

Källa: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Tidsstämpel:

Mer från AWS-maskininlärningsblogg