Blog dotyczący uczenia maszynowego AWS

Przeprowadzaj eksperymenty AutoML z dużymi zestawami danych parkietu za pomocą Amazon SageMaker Autopilot

AIZnacznik czasu: 28 stycznia 2022 2:48

Węzeł źródłowy: 1596421

Opublikowane ponownie przez Plato

Obserwuje: 0

Od dziś możesz korzystać Autopilot Amazon SageMaker do rozwiązywania zadań regresji i klasyfikacji na dużych zbiorach danych do 100 GB. Ponadto możesz teraz udostępniać swoje zestawy danych w formacie CSV lub Parkiet Apache typy treści.

Firmy generują więcej danych niż kiedykolwiek. Odpowiednio rośnie zapotrzebowanie na generowanie spostrzeżeń z tych dużych zbiorów danych w celu kształtowania decyzji biznesowych. Jednak skuteczne szkolenie najnowocześniejszych algorytmów uczenia maszynowego (ML) na tak dużych zbiorach danych może być trudne. Autopilot automatyzuje ten proces i zapewnia bezproblemowe uruchamianie automatycznego uczenia maszynowego (AutoML) na dużych zestawach danych do 100 GB.

Autopilot automatycznie podpróbkuje duże zbiory danych, aby dopasować je do maksymalnego obsługiwanego limitu, zachowując jednocześnie rzadką klasę w przypadku brak równowagi klasowej. Nierównowaga klas jest ważnym problemem, o którym należy pamiętać w uczeniu maszynowym, zwłaszcza w przypadku dużych zbiorów danych. Rozważ zestaw danych wykrywania oszustw, w którym oczekuje się, że tylko niewielka część transakcji będzie oszukańcza. W tym przypadku Autopilot pobiera podpróbkę tylko większości transakcji nieoszukańczych, zachowując rzadką klasę, oszukańcze transakcje.

Gdy uruchamiasz zadanie AutoML za pomocą rozwiązania Autopilot, wszystkie istotne informacje dotyczące próbkowania podrzędnego są przechowywane w pliku Amazon Cloud Watch. Przejdź do grupy dzienników dla /aws/sagemaker/ProcessingJobs, wyszukaj nazwę swojego zadania AutoML i wybierz strumień dziennika CloudWatch, który zawiera -db- w jego nazwie.

Wielu naszych klientów woli typ zawartości Parquet do przechowywania dużych zbiorów danych. Wynika to na ogół z jego skompresowanego charakteru, obsługi zaawansowanych struktur danych, wydajności i niskich kosztów operacji. Dane te często sięgają dziesiątek, a nawet setek GB. Teraz możesz bezpośrednio przenieść te zestawy danych Parquet do rozwiązania Autopilot. Możesz skorzystać z naszego interfejsu API lub przejść do Studio Amazon SageMaker aby utworzyć zadanie Autopilota za pomocą kilku kliknięć. Możesz określić lokalizację wejściową zestawu danych Parquet jako pojedynczy plik lub wiele plików określonych jako plik manifestu. Autopilot automatycznie wykrywa typ zawartości zestawu danych, analizuje go, wyodrębnia istotne funkcje i trenuje wiele algorytmów uczenia maszynowego.

Możesz zacząć korzystać z naszego przykładowy notatnik do uruchamiania AutoML przy użyciu Autopilota na zestawach danych Parquet.

O autorach

H. Furkana Bozkurta, Inżynier uczenia maszynowego, Autopilot Amazon SageMaker.

Walerio Perrone, kierownik ds. nauk stosowanych, autopilot Amazon SageMaker.

Źródło: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Znak czasu: 28 stycznia 2022 r.

Więcej z Blog dotyczący uczenia maszynowego AWS

Wprowadzenie nowego interfejsu API, aby zatrzymać bieżące przepływy pracy w Amazon Forecast

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 747274

Znak czasu: Mar 9, 2021

Jak podejść do projektowania konwersacji: Pierwsze kroki z Amazon Lex (część 2)

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 1139573

Znak czasu: Październik 12, 2021

Automatycznie wykrywaj wydarzenia sportowe w wideo za pomocą Amazon SageMaker

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 1504256

Znak czasu: Listopada 12, 2021

Aerobotyka zwiększa prędkość treningu o 24 razy na próbkę dzięki Amazon SageMaker i TensorFlow

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 768040

Znak czasu: Mar 29, 2021

Przygotuj dane z Snowflake do uczenia maszynowego za pomocą Amazon SageMaker Data Wrangler

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 893871

Znak czasu: Czerwiec 8, 2021

Uprość i zautomatyzuj wykrywanie anomalii w przesyłanych strumieniowo danych dzięki Amazon Lookout for Metrics

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 1002644

Znak czasu: Sierpnia 2, 2021

Ogłoszenie premiery sezonu 2021 AWS DeepComposer Chartbusters

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 834009

Znak czasu: Kwiecień 27, 2021

Popraw wydajność operacyjną dzięki zintegrowanemu monitorowaniu sprzętu za pomocą TensorIoT obsługiwanego przez AWS

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 805989

Znak czasu: Kwiecień 8, 2021

Zoptymalizuj swoje zadania wnioskowania za pomocą dynamicznego wnioskowania wsadowego za pomocą TorchServe na Amazon SageMaker

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 1884601

Znak czasu: Jan 12, 2022

Twórz wysokiej jakości notatki ze spotkań za pomocą Amazon Transcribe i Amazon Comprehend

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 1475220

Znak czasu: Listopada 10, 2021

Zbuduj aplikację do dopasowywania zdań medycznych za pomocą BERT i Amazon SageMaker

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 825852

Znak czasu: Kwiecień 23, 2021

Ulepsz narrację sportową dzięki generowaniu języka naturalnego za pomocą Amazon SageMaker

Klaster źródłowy:

Blog dotyczący uczenia maszynowego AWS

Węzeł źródłowy: 872442

Znak czasu: 24 maja 2021 r.