Przygotuj i analizuj dane JSON i ORC za pomocą Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Obserwuje: 0

Pogromca danych Amazon SageMaker to nowa możliwość Amazon Sage Maker Dzięki temu analitycy danych i inżynierowie mogą szybciej przygotowywać dane do aplikacji uczenia maszynowego (ML) za pośrednictwem interfejsu wizualnego. Przygotowanie danych jest kluczowym etapem cyklu życia uczenia maszynowego, a Data Wrangler zapewnia kompleksowe rozwiązanie do importowania, przygotowywania, przekształcania, udostępniania i analizowania danych dla uczenia maszynowego w płynnej, wizualnej i niskokodowej obsłudze. Pozwala łatwo i szybko łączyć się z komponentami AWS, takimi jak Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Formacja AWS Lakei źródła zewnętrzne, takie jak Snowflake. Data Wrangler obsługuje również standardowe typy danych, takie jak CSV i Parquet.

Data Wrangler obsługuje teraz dodatkowo zoptymalizowany wiersz kolumnowy (ORC), JavaScript Object Notation (JSON) i JSON Lines (JSONL):

ORC – Format pliku ORC zapewnia bardzo wydajny sposób przechowywania danych Hive. Został zaprojektowany w celu przezwyciężenia ograniczeń innych formatów plików Hive. Używanie plików ORC poprawia wydajność, gdy Hive odczytuje, zapisuje i przetwarza dane. ORC jest szeroko stosowany w ekosystemie Hadoop.
JSON – Format pliku JSON to lekki, powszechnie używany format wymiany danych.
JSONL – Linie JSON, zwane także JSON rozdzielanymi znakami nowej linii, to wygodny format przechowywania danych strukturalnych, które mogą być przetwarzane po jednym rekordzie na raz.

Możesz wyświetlić podgląd danych ORC, JSON i JSONL przed zaimportowaniem zestawów danych do Data Wrangler. Po zaimportowaniu danych możesz również użyć jednego z nowo uruchomionych transformatorów do pracy z kolumnami zawierającymi ciągi JSON lub tablice, które często znajdują się w zagnieżdżonych plikach JSON.

Importuj i analizuj dane ORC za pomocą Data Wrangler

Importowanie danych ORC w Data Wrangler jest łatwe i podobne do importowania plików w innych obsługiwanych formatach. Przejdź do pliku ORC w Amazon S3 iw SZCZEGÓŁY panelu wybierz ORC jako typ pliku podczas importu.

Jeśli jesteś nowy w Data Wrangler, przejrzyj Zacznij korzystać z Data Wranglera. Zobacz także import aby poznać różne opcje importu.

Importuj i analizuj dane JSON za pomocą Data Wrangler

Teraz zaimportujmy pliki w formacie JSON za pomocą narzędzia Data Wrangler i pracujmy z kolumnami zawierającymi ciągi lub tablice JSON. Pokazujemy również, jak radzić sobie z zagnieżdżonymi JSON-ami. Dzięki Data Wrangler importowanie plików JSON z Amazon S3 to bezproblemowy proces. Jest to podobne do importowania plików w innych obsługiwanych formatach. Po zaimportowaniu plików możesz wyświetlić podgląd plików JSON, jak pokazano na poniższym zrzucie ekranu. Upewnij się, że typ pliku jest ustawiony na JSON w pliku SZCZEGÓŁY szkło.

Następnie zajmijmy się kolumnami strukturalnymi w zaimportowanym pliku JSON.

Aby poradzić sobie z ustrukturyzowanymi kolumnami w plikach JSON, Data Wrangler wprowadza dwie nowe transformacje: Spłaszcz kolumnę strukturalną i Rozbij kolumnę tablicy, który można znaleźć pod Obsługuj kolumnę strukturalną opcja w DODAJ PRZEKSZTAŁCENIE szkło.

Zacznijmy od zastosowania tzw Rozbij kolumnę tablicy transform do jednej z kolumn w naszych zaimportowanych danych. Przed zastosowaniem transformacji możemy zobaczyć kolumnę topping jest tablicą obiektów JSON z id i type klawiatura.

Po zastosowaniu transformacji możemy obserwować dodane w jej wyniku nowe wiersze. Każdy element w tablicy jest teraz nowym wierszem w wynikowej ramce danych.

Teraz zastosujmy Spłaszcz kolumnę strukturalną przekształcić na topping_flattened kolumna, która powstała w wyniku Rozbij kolumnę tablicy transformacji, którą zastosowaliśmy w poprzednim kroku.

Przed zastosowaniem transformacji możemy zobaczyć klucze id i type topping_flattened Kolumna.

Po zastosowaniu transformacji możemy teraz obserwować klucze id i type pod topping_flattened kolumna jako nowe kolumny topping_flattened_id i topping_flattened_type, które powstają w wyniku przekształcenia. Możesz także spłaszczyć tylko określone klawisze, wprowadzając nazwy klawiszy oddzielone przecinkami Klawisze do spłaszczenia. Jeśli pozostawisz puste, wszystkie klucze wewnątrz łańcucha JSON lub struktury zostaną spłaszczone.

Wnioski

W tym poście pokazaliśmy, jak łatwo importować formaty plików w ORC i JSON za pomocą Data Wrangler. Zastosowaliśmy również nowo uruchomione transformacje, które pozwalają na transformację dowolnych ustrukturyzowanych kolumn w danych JSON. Dzięki temu praca z kolumnami zawierającymi ciągi JSON lub tablice jest bezproblemowa.

Jako kolejne kroki zalecamy replikację zademonstrowanych przykładów we własnym interfejsie wizualnym Data Wrangler. Jeśli masz jakieś pytania związane z Data Wrangler, zadaj je w sekcji komentarzy.

O autorach

Balaji Tummala jest inżynierem ds. rozwoju oprogramowania w Amazon SageMaker. Pomaga wspierać Amazon SageMaker Data Wrangler i pasjonuje się tworzeniem wydajnego i skalowalnego oprogramowania. Poza pracą czyta literaturę faktu i gra w siatkówkę.

Arunprasath Shankar jest specjalistą ds. rozwiązań w zakresie sztucznej inteligencji i uczenia maszynowego (AI / ML) w AWS, pomagając globalnym klientom skutecznie i wydajnie skalować rozwiązania AI w chmurze. W wolnym czasie Arun lubi oglądać filmy science fiction i słuchać muzyki klasycznej.