Запускайте задания обработки несколькими щелчками мыши с помощью Amazon SageMaker Data Wrangler.

Исходный узел: 1600104

Обработчик данных Amazon SageMaker позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения (ML) с помощью визуального интерфейса. Раньше при создании потока данных Data Wrangler можно было выбрать различные параметры экспорта, чтобы легко интегрировать этот поток данных в конвейер обработки данных. Data Wrangler предлагает варианты экспорта в Простой сервис хранения Amazon (Амазон С3), Конвейеры SageMakerи Магазин функций SageMakerили как код Python. Параметры экспорта создают записную книжку Jupyter и требуют запуска кода для запуска задания обработки, облегченного Обработка SageMaker.

Мы рады объявить об общем выпуске узлов назначения и функции «Создать задание» в Data Wrangler. Эта функция дает вам возможность экспортировать все преобразования, которые вы внесли в набор данных, в конечный узел всего несколькими щелчками мыши. Это позволяет создавать задания по обработке данных и экспортировать их в Amazon S3 исключительно через визуальный интерфейс без необходимости создавать, запускать или управлять блокнотами Jupyter, тем самым улучшая работу с низким кодом. Чтобы продемонстрировать эту новую функцию, мы используем Набор данных Титаник и покажите, как экспортировать ваши преобразования в целевой узел.

Предпосылки

Прежде чем мы узнаем, как использовать целевые узлы с Data Wrangler, вы уже должны понимать, как получить доступ и начать работу с Data Wrangler. Вы также должны знать, что такое поток данных средства с контекстом для Data Wrangler и как создать его, импортировав данные из различных источников данных, поддерживаемых Data Wrangler.

Обзор решения

Рассмотрим следующий поток данных с именем example-titanic.flow:

  • Он трижды импортирует набор данных Titanic. Вы можете видеть эти разные импорты как отдельные ветви в потоке данных.
  • Для каждой ветви применяется набор преобразований и визуализаций.
  • Он объединяет ветки в единый узел со всеми преобразованиями и визуализациями.

С помощью этого потока вы можете захотеть обработать и сохранить части ваших данных в определенной ветви или местоположении.

На следующих шагах мы покажем, как создавать узлы назначения, экспортировать их в Amazon S3, а также создавать и запускать задание обработки.

Создать целевой узел

Вы можете использовать следующую процедуру, чтобы создать узлы назначения и экспортировать их в корзину S3:

  1. Определите, какие части файла потока (преобразования) вы хотите сохранить.
  2. Выберите знак «плюс» рядом с узлами, представляющими преобразования, которые вы хотите экспортировать. (Если это свернутый узел, вы должны выбрать значок параметров (три точки) для узла).
  3. Парить Добавить пункт назначения.
  4. Выберите Amazon S3.
  5. Укажите поля, как показано на следующем снимке экрана.
  6. Для второго узла присоединения выполните те же действия, чтобы добавить Amazon S3 в качестве места назначения и указать поля.

Вы можете повторять эти шаги столько раз, сколько вам нужно для любого количества узлов в вашем потоке данных. Позже вы выбираете, какие узлы назначения включить в задание обработки.

Запустить задание на обработку

Используйте следующую процедуру, чтобы создать задание обработки и выбрать целевой узел, в который вы хотите экспортировать:

  1. На Поток данных , выберите Создать работу.
  2. Что касается Название работы¸ введите имя задания на экспорт.
  3. Выберите узлы назначения, которые вы хотите экспортировать.
  4. При желании укажите Служба управления ключами AWS (AWS KMS) ключ ARN.

Ключ KMS — это криптографический ключ, который можно использовать для защиты ваших данных. Дополнительные сведения о ключах KMS см. Руководство разработчика ключей AWS.

  1. Выберите Далее 2. Настройка задания.
  2. При желании вы можете настроить задание в соответствии со своими потребностями, изменив тип или количество экземпляров или добавив любые теги, которые будут связаны с заданием.
  3. Выберите Run для запуска работы.

Сообщение об успехе появляется, когда задание успешно создано.

Посмотреть окончательные данные

Наконец, вы можете использовать следующие шаги для просмотра экспортированных данных:

  1. После создания задания выберите предоставленную ссылку.

Откроется новая вкладка, показывающая задание обработки на консоли SageMaker.

  1. По завершении задания просмотрите экспортированные данные в консоли Amazon S3.

Вы должны увидеть новую папку с выбранным вами именем задания.

  1. Выберите имя задания, чтобы просмотреть файл CSV (или несколько файлов) с окончательными данными.

FAQ

В этом разделе мы ответим на несколько часто задаваемых вопросов об этой новой функции:

  • Что случилось с вкладкой Экспорт? Благодаря этой новой функции мы удалили Экспортировать вкладка из Data Wrangler. Вы по-прежнему можете упростить функцию экспорта с помощью созданных Data Wrangler записных книжек Jupyter из любых узлов, созданных вами в потоке данных, выполнив следующие действия:
    1. Выберите знак «плюс» рядом с узлом, который вы хотите экспортировать.
    2. Выберите Экспорт в.
    3. Выберите Amazon S3 (через блокнот Jupyter).
    4. Запустите блокнот Jupyter.
  • Сколько узлов назначения я могу включить в задание? На одно задание обработки может приходиться не более 10 адресатов.
  • Сколько узлов назначения я могу иметь в файле потока? У вас может быть столько узлов назначения, сколько вы хотите.
  • Могу ли я добавить преобразования после узлов назначения? Нет, идея в том, что узлы назначения — это конечные узлы, у которых нет дальнейших шагов после этого.
  • Какие поддерживаемые источники я могу использовать с узлами назначения? На момент написания этой статьи мы поддерживаем только Amazon S3 в качестве целевого источника. В будущем будет добавлена ​​поддержка дополнительных типов источников назначения. Пожалуйста, свяжитесь, если есть конкретный, который вы хотели бы видеть.

Обзор

В этом посте мы продемонстрировали, как использовать недавно запущенные целевые узлы для создания заданий обработки и сохранения преобразованных наборов данных непосредственно в Amazon S3 через визуальный интерфейс Data Wrangler. С помощью этой дополнительной функции мы улучшили работу Data Wrangler с низким кодом, управляемую инструментами.

В качестве следующих шагов мы рекомендуем вам попробовать пример, продемонстрированный в этом посте. Если у вас есть вопросы или вы хотите узнать больше, см. Экспортировать или оставьте вопрос в разделе комментариев.


Об авторах

Альфонсо Остин-Ривера работает фронтенд-инженером в Amazon SageMaker Data Wrangler. Он увлечен созданием интуитивно понятного пользовательского интерфейса, который вызывает радость. В свободное время вы можете увидеть, как он борется с гравитацией в зале для скалолазания или за рулем своего дрона.

Парса Шахбодаги является техническим писателем в AWS, специализирующимся на машинном обучении и искусственном интеллекте. Он пишет техническую документацию для Amazon SageMaker Data Wrangler и Amazon SageMaker Feature Store. В свободное время он любит медитировать, слушать аудиокниги, заниматься тяжелой атлетикой и смотреть стендап-комедии. Он никогда не станет стендап-комиком, но, по крайней мере, его мама считает его забавным.

Баладжи Туммала работает инженером-разработчиком программного обеспечения в Amazon SageMaker. Он помогает поддерживать Amazon SageMaker Data Wrangler и увлечен созданием производительного и масштабируемого программного обеспечения. Вне работы он любит читать художественную литературу и играть в волейбол.

Арунпрасат Шанкар является специалистом по архитектуре решений в области искусственного интеллекта и машинного обучения (AI / ML) в AWS, помогая клиентам во всем мире эффективно масштабировать свои решения AI в облаке. В свободное время Арун любит смотреть научно-фантастические фильмы и слушать классическую музыку.

Источник: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Отметка времени:

Больше от Блог машинного обучения AWS