Запуск экспериментов AutoML с большими наборами данных паркета с помощью автопилота Amazon SageMaker

Переиздано Платоном

Читают: 0

С сегодняшнего дня вы можете использовать Amazon SageMaker Автопилот для решения задач регрессии и классификации больших наборов данных до 100 ГБ. Кроме того, теперь вы можете предоставлять свои наборы данных в формате CSV или Паркет Apache типы контента.

Предприятия генерируют больше данных, чем когда-либо. Соответствующий спрос растет на получение аналитической информации из этих больших наборов данных для формирования бизнес-решений. Однако успешное обучение современным алгоритмам машинного обучения (ML) на таких больших наборах данных может оказаться сложной задачей. Autopilot автоматизирует этот процесс и обеспечивает удобство запуска автоматизированного машинного обучения (AutoML) для больших наборов данных размером до 100 ГБ.

Автопилот автоматически выполняет подвыборку больших наборов данных, чтобы соответствовать максимальному поддерживаемому пределу, сохраняя при этом редкий класс в случае классовый дисбаланс. Дисбаланс классов — важная проблема в машинном обучении, особенно при работе с большими наборами данных. Рассмотрим набор данных для обнаружения мошенничества, в котором ожидается, что лишь небольшая часть транзакций будет мошеннической. В этом случае автопилот выполняет подвыборку только большинства немошеннических транзакций, сохраняя при этом редкий класс мошеннических транзакций.

Когда вы запускаете задание AutoML с помощью Autopilot, вся необходимая информация для подвыборки сохраняется в Amazon CloudWatch. Перейдите к группе журналов для /aws/sagemaker/ProcessingJobs, найдите имя своего задания AutoML и выберите поток журнала CloudWatch, который включает -db- в его названии.

Многие из наших клиентов предпочитают тип контента Parquet для хранения своих больших наборов данных. Обычно это связано с его сжатым характером, поддержкой расширенных структур данных, эффективностью и низкой стоимостью операций. Эти данные часто могут достигать десятков или даже сотен ГБ. Теперь вы можете напрямую перенести эти наборы данных Parquet в Autopilot. Вы можете использовать наш API или перейти на Студия Amazon SageMaker чтобы создать задание автопилота в несколько кликов. Вы можете указать входное местоположение вашего набора данных Parquet в виде одного файла или нескольких файлов, указанных в виде файла манифеста. Автопилот автоматически определяет тип контента вашего набора данных, анализирует его, извлекает значимые функции и обучает несколько алгоритмов машинного обучения.

Вы можете начать использовать наш образец тетради для запуска AutoML с использованием Autopilot в наборах данных Parquet.

Об авторах

Х. Фуркан Бозкурт, инженер по машинному обучению, автопилот Amazon SageMaker.

Валерио Перроне, менеджер по прикладным наукам, Amazon SageMaker Autopilot.

Источник: https://aws.amazon.com/blogs/machine-learning/run-automl-experiments-with-large-parquet-datasets-using-amazon-sagemaker-autopilot/

Отметка времени: 28 января 2022

Отметка времени: 23 Апрель, 2021

Проведение экспериментов AutoML с большими наборами данных паркета с помощью Amazon SageMaker Autopilot.

Переиздано Платоном

Об авторах

Больше от Блог машинного обучения AWS

Обнаружение акустических аномалий с помощью Amazon Lookout for Equipment

Повысьте операционную эффективность с помощью интегрированного мониторинга оборудования с помощью TensorIoT на базе AWS

Получите в 12 раз более высокую пропускную способность и самую низкую задержку для приложений PyTorch Natural Language Processing прямо из коробки на AWS Inferentia

Предотвратите регистрацию поддельных аккаунтов в реальном времени с помощью искусственного интеллекта с помощью Amazon Fraud Detector

Amazon Personalize теперь может разблокировать внутренние сигналы в вашем каталоге, чтобы рекомендовать аналогичные товары.

HawkEye 360 прогнозирует судовой риск с помощью библиотеки Deep Graph и Amazon Neptune

Ускоренное обучение моделей с помощью автоматического профилировщика данных для Amazon Fraud Detector

Когнитивная обработка документов для автоматизированного оформления ипотеки

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись