Uruchamiaj zadania przetwarzania kilkoma kliknięciami za pomocą Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Obserwuje: 0

Pogromca danych Amazon SageMaker sprawia, że naukowcy i inżynierowie zajmujący się danymi szybciej przygotowują dane do aplikacji uczenia maszynowego (ML) za pomocą interfejsu wizualnego. Wcześniej podczas tworzenia przepływu danych Data Wrangler można było wybrać różne opcje eksportu, aby łatwo zintegrować ten przepływ danych z potokiem przetwarzania danych. Data Wrangler oferuje opcje eksportu do Usługa Amazon Simple Storage (Amazonka S3), Rurociągi SageMaker, Sklep z funkcjami SageMakerlub jako kod Pythona. Opcje eksportu tworzą notatnik Jupyter i wymagają uruchomienia kodu, aby rozpocząć zadanie przetwarzania, które ułatwia Przetwarzanie SageMaker.

Z radością ogłaszamy ogólne wydanie węzłów docelowych i funkcji Utwórz zadanie w Data Wranglerze. Ta funkcja umożliwia wyeksportowanie wszystkich transformacji dokonanych w zbiorze danych do węzła docelowego za pomocą zaledwie kilku kliknięć. Umożliwia to tworzenie zadań przetwarzania danych i eksportowanie do Amazon S3 wyłącznie za pośrednictwem interfejsu wizualnego, bez konieczności generowania, uruchamiania i zarządzania notatnikami Jupyter, co poprawia komfort korzystania z małej ilości kodu. Aby zademonstrować tę nową funkcję, używamy metody Zbiór danych Titanica i pokaż, jak wyeksportować transformacje do węzła docelowego.

Wymagania wstępne

Zanim nauczymy się korzystać z węzłów docelowych w Data Wranglerze, powinieneś już wiedzieć, jak to zrobić uzyskaj dostęp i rozpocznij korzystanie z Data Wrangler. Musisz także wiedzieć, co to jest a przepływ danych oznacza kontekst Data Wrangler i sposób jego tworzenia poprzez importowanie danych z różnych źródeł danych obsługiwanych przez Data Wrangler.

Omówienie rozwiązania

Rozważmy następujący przepływ danych o nazwie example-titanic.flow:

Importuje zbiór danych Titanica trzykrotnie. Te różne importy można postrzegać jako osobne gałęzie w przepływie danych.
Dla każdej gałęzi stosuje zestaw przekształceń i wizualizacji.
Łączy gałęzie w jeden węzeł ze wszystkimi przekształceniami i wizualizacjami.

Dzięki temu przepływowi możesz chcieć przetworzyć i zapisać część danych w określonym oddziale lub lokalizacji.

W poniższych krokach pokażemy, jak utworzyć węzły docelowe, wyeksportować je do Amazon S3 oraz utworzyć i uruchomić zadanie przetwarzania.

Utwórz węzeł docelowy

Możesz użyć poniższej procedury, aby utworzyć węzły docelowe i wyeksportować je do segmentu S3:

Określ, które części pliku przepływu (transformacje) chcesz zapisać.
Wybierz znak plus obok węzłów reprezentujących transformacje, które chcesz wyeksportować. (Jeśli jest to węzeł zwinięty, musisz wybrać ikonę opcji (trzy kropki) dla węzła).
Umieść kursor nad Dodaj miejsce docelowe.
Dodaj Amazon S3.
Określ pola, jak pokazano na poniższym zrzucie ekranu.
W przypadku drugiego węzła łączenia wykonaj te same kroki, aby dodać Amazon S3 jako miejsce docelowe i określić pola.

Możesz powtórzyć te kroki tyle razy, ile potrzebujesz dla dowolnej liczby węzłów w przepływie danych. Później wybierasz węzły docelowe, które chcesz uwzględnić w zadaniu przetwarzania.

Uruchom zadanie przetwarzania

Skorzystaj z poniższej procedury, aby utworzyć zadanie przetwarzania i wybierz węzeł docelowy, do którego chcesz eksportować:

Na Przepływ danych kartę, wybierz Utwórz pracę.
W razie zamówieenia projektu Nazwa pracy¸ wprowadź nazwę zadania eksportu.
Wybierz węzły docelowe, które chcesz wyeksportować.
Opcjonalnie określ Usługa zarządzania kluczami AWS (AWS KMS) klucz ARN.

Klucz KMS to klucz kryptograficzny, którego możesz użyć do ochrony swoich danych. Aby uzyskać więcej informacji na temat kluczy KMS, zobacz Przewodnik dla kluczowych programistów AWS.

Dodaj Następnie 2. Skonfiguruj zadanie.
Opcjonalnie możesz skonfigurować zadanie zgodnie ze swoimi potrzebami, zmieniając typ lub liczbę instancji lub dodając tagi powiązane z zadaniem.
Dodaj run do uruchomienia zadania.

Po pomyślnym utworzeniu zadania pojawi się komunikat o powodzeniu.

Zobacz ostateczne dane

Na koniec możesz wykonać następujące kroki, aby wyświetlić wyeksportowane dane:

Po utworzeniu zadania wybierz podany link.

Otworzy się nowa karta pokazująca zadanie przetwarzania w konsoli SageMaker.

Po zakończeniu zadania przejrzyj wyeksportowane dane na konsoli Amazon S3.

Powinieneś zobaczyć nowy folder z wybraną nazwą zadania.

Wybierz nazwę zadania, aby wyświetlić plik CSV (lub wiele plików) z ostatecznymi danymi.

FAQ

W tej sekcji odpowiadamy na kilka często zadawanych pytań dotyczących tej nowej funkcji:

Co się stało z zakładką Eksportuj? Dzięki tej nowej funkcji usunęliśmy Export zakładka z Data Wrangler. Nadal możesz ułatwić funkcję eksportu za pomocą notatników Jupyter wygenerowanych przez Data Wrangler z dowolnych węzłów utworzonych w przepływie danych, wykonując następujące kroki:

1. Wybierz znak plus obok węzła, który chcesz wyeksportować.
2. Dodaj Eksportować do.
3. Dodaj Amazon S3 (przez notatnik Jupyter).
4. Uruchom notatnik Jupyter.

Ile węzłów docelowych mogę uwzględnić w zadaniu? Na zadanie przetwarzania przypada maksymalnie 10 miejsc docelowych.
Ile węzłów docelowych mogę mieć w pliku przepływu? Możesz mieć dowolną liczbę węzłów docelowych.
Czy mogę dodać transformacje po węzłach docelowych? Nie, pomysł jest taki, że węzły docelowe są węzłami końcowymi, po których nie ma dalszych kroków.
Jakich obsługiwanych źródeł mogę używać z węzłami docelowymi? W chwili pisania tego tekstu obsługujemy wyłącznie Amazon S3 jako źródło docelowe. W przyszłości zostanie dodana obsługa większej liczby typów źródeł docelowych. Skontaktuj się z nami, jeśli chcesz zobaczyć konkretny egzemplarz.

Podsumowanie

W tym poście pokazaliśmy, jak używać nowo uruchomionych węzłów docelowych do tworzenia zadań przetwarzania i zapisywania przekształconych zbiorów danych bezpośrednio w Amazon S3 za pośrednictwem interfejsu wizualnego Data Wrangler. Dzięki tej dodatkowej funkcji ulepszyliśmy obsługę Data Wranglera bazującą na narzędziach z niskim kodem.

W kolejnych krokach zalecamy wypróbowanie przykładu zaprezentowanego w tym poście. Jeśli masz pytania lub chcesz dowiedzieć się więcej, zajrzyj Export lub zostaw pytanie w sekcji komentarzy.

O autorach

Alfonso Austin-Rivera jest inżynierem front-end w Amazon SageMaker Data Wrangler. Jego pasją jest budowanie intuicyjnych doświadczeń użytkownika, które wywołują radość. W wolnym czasie możesz go spotkać walczącego z grawitacją na siłowni lub na świeżym powietrzu, latającego dronem.

Parsa Shahbodaghi jest pisarzem technicznym w AWS specjalizującym się w uczeniu maszynowym i sztucznej inteligencji. Pisze dokumentację techniczną dla Amazon SageMaker Data Wrangler i Amazon SageMaker Feature Store. W wolnym czasie lubi medytować, słuchać audiobooków, podnosić ciężary i oglądać stand-upy. Nigdy nie będzie komikiem stand-upowym, ale przynajmniej jego mama uważa, że jest zabawny.

Balaji Tummala jest inżynierem ds. rozwoju oprogramowania w Amazon SageMaker. Pomaga wspierać Amazon SageMaker Data Wrangler i pasjonuje się tworzeniem wydajnego i skalowalnego oprogramowania. Poza pracą czyta literaturę faktu i gra w siatkówkę.

Arunprasath Shankar jest specjalistą ds. rozwiązań w zakresie sztucznej inteligencji i uczenia maszynowego (AI / ML) w AWS, pomagając globalnym klientom skutecznie i wydajnie skalować rozwiązania AI w chmurze. W wolnym czasie Arun lubi oglądać filmy science fiction i słuchać muzyki klasycznej.