Przeprowadzaj eksperymenty AutoML z dużymi zestawami danych parkietu za pomocą Amazon SageMaker Autopilot

Węzeł źródłowy: 1596421

Od dziś możesz korzystać Autopilot Amazon SageMaker do rozwiązywania zadań regresji i klasyfikacji na dużych zbiorach danych do 100 GB. Ponadto możesz teraz udostępniać swoje zestawy danych w formacie CSV lub Parkiet Apache typy treści.

Firmy generują więcej danych niż kiedykolwiek. Odpowiednio rośnie zapotrzebowanie na generowanie spostrzeżeń z tych dużych zbiorów danych w celu kształtowania decyzji biznesowych. Jednak skuteczne szkolenie najnowocześniejszych algorytmów uczenia maszynowego (ML) na tak dużych zbiorach danych może być trudne. Autopilot automatyzuje ten proces i zapewnia bezproblemowe uruchamianie automatycznego uczenia maszynowego (AutoML) na dużych zestawach danych do 100 GB.

Autopilot automatycznie podpróbkuje duże zbiory danych, aby dopasować je do maksymalnego obsługiwanego limitu, zachowując jednocześnie rzadką klasę w przypadku brak równowagi klasowej. Nierównowaga klas jest ważnym problemem, o którym należy pamiętać w uczeniu maszynowym, zwłaszcza w przypadku dużych zbiorów danych. Rozważ zestaw danych wykrywania oszustw, w którym oczekuje się, że tylko niewielka część transakcji będzie oszukańcza. W tym przypadku Autopilot pobiera podpróbkę tylko większości transakcji nieoszukańczych, zachowując rzadką klasę, oszukańcze transakcje.

Gdy uruchamiasz zadanie AutoML za pomocą rozwiązania Autopilot, wszystkie istotne informacje dotyczące próbkowania podrzędnego są przechowywane w pliku Amazon Cloud Watch. Przejdź do grupy dzienników dla /aws/sagemaker/ProcessingJobs, wyszukaj nazwę swojego zadania AutoML i wybierz strumień dziennika CloudWatch, który zawiera -db- w jego nazwie.

Wielu naszych klientów woli typ zawartości Parquet do przechowywania dużych zbiorów danych. Wynika to na ogół z jego skompresowanego charakteru, obsługi zaawansowanych struktur danych, wydajności i niskich kosztów operacji. Dane te często sięgają dziesiątek, a nawet setek GB. Teraz możesz bezpośrednio przenieść te zestawy danych Parquet do rozwiązania Autopilot. Możesz skorzystać z naszego interfejsu API lub przejść do Studio Amazon SageMaker aby utworzyć zadanie Autopilota za pomocą kilku kliknięć. Możesz określić lokalizację wejściową zestawu danych Parquet jako pojedynczy plik lub wiele plików określonych jako plik manifestu. Autopilot automatycznie wykrywa typ zawartości zestawu danych, analizuje go, wyodrębnia istotne funkcje i trenuje wiele algorytmów uczenia maszynowego.

Możesz zacząć korzystać z naszego przykładowy notatnik do uruchamiania AutoML przy użyciu Autopilota na zestawach danych Parquet.


O autorach

H. Furkana Bozkurta, Inżynier uczenia maszynowego, Autopilot Amazon SageMaker.

Walerio Perrone, kierownik ds. nauk stosowanych, autopilot Amazon SageMaker.

Źródło: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Znak czasu:

Więcej z Blog dotyczący uczenia maszynowego AWS