Проведение экспериментов AutoML с большими наборами данных паркета с помощью Amazon SageMaker Autopilot.

Исходный узел: 1596421

С сегодняшнего дня вы можете использовать Amazon SageMaker Автопилот для решения задач регрессии и классификации больших наборов данных до 100 ГБ. Кроме того, теперь вы можете предоставлять свои наборы данных в формате CSV или Паркет Apache типы контента.

Предприятия генерируют больше данных, чем когда-либо. Соответствующий спрос растет на получение аналитической информации из этих больших наборов данных для формирования бизнес-решений. Однако успешное обучение современным алгоритмам машинного обучения (ML) на таких больших наборах данных может оказаться сложной задачей. Autopilot автоматизирует этот процесс и обеспечивает удобство запуска автоматизированного машинного обучения (AutoML) для больших наборов данных размером до 100 ГБ.

Автопилот автоматически выполняет подвыборку больших наборов данных, чтобы соответствовать максимальному поддерживаемому пределу, сохраняя при этом редкий класс в случае классовый дисбаланс. Дисбаланс классов — важная проблема в машинном обучении, особенно при работе с большими наборами данных. Рассмотрим набор данных для обнаружения мошенничества, в котором ожидается, что лишь небольшая часть транзакций будет мошеннической. В этом случае автопилот выполняет подвыборку только большинства немошеннических транзакций, сохраняя при этом редкий класс мошеннических транзакций.

Когда вы запускаете задание AutoML с помощью Autopilot, вся необходимая информация для подвыборки сохраняется в Amazon CloudWatch. Перейдите к группе журналов для /aws/sagemaker/ProcessingJobs, найдите имя своего задания AutoML и выберите поток журнала CloudWatch, который включает -db- в его названии.

Многие из наших клиентов предпочитают тип контента Parquet для хранения своих больших наборов данных. Обычно это связано с его сжатым характером, поддержкой расширенных структур данных, эффективностью и низкой стоимостью операций. Эти данные часто могут достигать десятков или даже сотен ГБ. Теперь вы можете напрямую перенести эти наборы данных Parquet в Autopilot. Вы можете использовать наш API или перейти на Студия Amazon SageMaker чтобы создать задание автопилота в несколько кликов. Вы можете указать входное местоположение вашего набора данных Parquet в виде одного файла или нескольких файлов, указанных в виде файла манифеста. Автопилот автоматически определяет тип контента вашего набора данных, анализирует его, извлекает значимые функции и обучает несколько алгоритмов машинного обучения.

Вы можете начать использовать наш образец тетради для запуска AutoML с использованием Autopilot в наборах данных Parquet.


Об авторах

Х. Фуркан Бозкурт, инженер по машинному обучению, автопилот Amazon SageMaker.

Валерио Перроне, менеджер по прикладным наукам, Amazon SageMaker Autopilot.

Источник: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Отметка времени:

Больше от Блог машинного обучения AWS