Обработчик данных Amazon SageMaker позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения (ML) с помощью визуального интерфейса. Раньше при создании потока данных Data Wrangler можно было выбрать различные параметры экспорта, чтобы легко интегрировать этот поток данных в конвейер обработки данных. Data Wrangler предлагает варианты экспорта в Простой сервис хранения Amazon (Амазон С3), Конвейеры SageMakerи Магазин функций SageMakerили как код Python. Параметры экспорта создают записную книжку Jupyter и требуют запуска кода для запуска задания обработки, облегченного Обработка SageMaker.
Мы рады объявить об общем выпуске узлов назначения и функции «Создать задание» в Data Wrangler. Эта функция дает вам возможность экспортировать все преобразования, которые вы внесли в набор данных, в конечный узел всего несколькими щелчками мыши. Это позволяет создавать задания по обработке данных и экспортировать их в Amazon S3 исключительно через визуальный интерфейс без необходимости создавать, запускать или управлять блокнотами Jupyter, тем самым улучшая работу с низким кодом. Чтобы продемонстрировать эту новую функцию, мы используем Набор данных Титаник и покажите, как экспортировать ваши преобразования в целевой узел.
Предпосылки
Прежде чем мы узнаем, как использовать целевые узлы с Data Wrangler, вы уже должны понимать, как получить доступ и начать работу с Data Wrangler. Вы также должны знать, что такое поток данных средства с контекстом для Data Wrangler и как создать его, импортировав данные из различных источников данных, поддерживаемых Data Wrangler.
Обзор решения
Рассмотрим следующий поток данных с именем example-titanic.flow
:
- Он трижды импортирует набор данных Titanic. Вы можете видеть эти разные импорты как отдельные ветви в потоке данных.
- Для каждой ветви применяется набор преобразований и визуализаций.
- Он объединяет ветки в единый узел со всеми преобразованиями и визуализациями.
С помощью этого потока вы можете захотеть обработать и сохранить части ваших данных в определенной ветви или местоположении.
На следующих шагах мы покажем, как создавать узлы назначения, экспортировать их в Amazon S3, а также создавать и запускать задание обработки.
Создать целевой узел
Вы можете использовать следующую процедуру, чтобы создать узлы назначения и экспортировать их в корзину S3:
- Определите, какие части файла потока (преобразования) вы хотите сохранить.
- Выберите знак «плюс» рядом с узлами, представляющими преобразования, которые вы хотите экспортировать. (Если это свернутый узел, вы должны выбрать значок параметров (три точки) для узла).
- Парить Добавить пункт назначения.
- Выберите Amazon S3.
- Укажите поля, как показано на следующем снимке экрана.
- Для второго узла присоединения выполните те же действия, чтобы добавить Amazon S3 в качестве места назначения и указать поля.
Вы можете повторять эти шаги столько раз, сколько вам нужно для любого количества узлов в вашем потоке данных. Позже вы выбираете, какие узлы назначения включить в задание обработки.
Запустить задание на обработку
Используйте следующую процедуру, чтобы создать задание обработки и выбрать целевой узел, в который вы хотите экспортировать:
- На Поток данных , выберите Создать работу.
- Что касается Название работы¸ введите имя задания на экспорт.
- Выберите узлы назначения, которые вы хотите экспортировать.
- При желании укажите Служба управления ключами AWS (AWS KMS) ключ ARN.
Ключ KMS — это криптографический ключ, который можно использовать для защиты ваших данных. Дополнительные сведения о ключах KMS см. Руководство разработчика ключей AWS.
- Выберите Далее 2. Настройка задания.
- При желании вы можете настроить задание в соответствии со своими потребностями, изменив тип или количество экземпляров или добавив любые теги, которые будут связаны с заданием.
- Выберите Run для запуска работы.
Сообщение об успехе появляется, когда задание успешно создано.
Посмотреть окончательные данные
Наконец, вы можете использовать следующие шаги для просмотра экспортированных данных:
Откроется новая вкладка, показывающая задание обработки на консоли SageMaker.
- По завершении задания просмотрите экспортированные данные в консоли Amazon S3.
Вы должны увидеть новую папку с выбранным вами именем задания.
FAQ
В этом разделе мы ответим на несколько часто задаваемых вопросов об этой новой функции:
- Что случилось с вкладкой Экспорт? Благодаря этой новой функции мы удалили Экспортировать вкладка из Data Wrangler. Вы по-прежнему можете упростить функцию экспорта с помощью созданных Data Wrangler записных книжек Jupyter из любых узлов, созданных вами в потоке данных, выполнив следующие действия:
- Сколько узлов назначения я могу включить в задание? На одно задание обработки может приходиться не более 10 адресатов.
- Сколько узлов назначения я могу иметь в файле потока? У вас может быть столько узлов назначения, сколько вы хотите.
- Могу ли я добавить преобразования после узлов назначения? Нет, идея в том, что узлы назначения — это конечные узлы, у которых нет дальнейших шагов после этого.
- Какие поддерживаемые источники я могу использовать с узлами назначения? На момент написания этой статьи мы поддерживаем только Amazon S3 в качестве целевого источника. В будущем будет добавлена поддержка дополнительных типов источников назначения. Пожалуйста, свяжитесь, если есть конкретный, который вы хотели бы видеть.
Обзор
В этом посте мы продемонстрировали, как использовать недавно запущенные целевые узлы для создания заданий обработки и сохранения преобразованных наборов данных непосредственно в Amazon S3 через визуальный интерфейс Data Wrangler. С помощью этой дополнительной функции мы улучшили работу Data Wrangler с низким кодом, управляемую инструментами.
В качестве следующих шагов мы рекомендуем вам попробовать пример, продемонстрированный в этом посте. Если у вас есть вопросы или вы хотите узнать больше, см. Экспортировать или оставьте вопрос в разделе комментариев.
Об авторах
Альфонсо Остин-Ривера работает фронтенд-инженером в Amazon SageMaker Data Wrangler. Он увлечен созданием интуитивно понятного пользовательского интерфейса, который вызывает радость. В свободное время вы можете увидеть, как он борется с гравитацией в зале для скалолазания или за рулем своего дрона.
Парса Шахбодаги является техническим писателем в AWS, специализирующимся на машинном обучении и искусственном интеллекте. Он пишет техническую документацию для Amazon SageMaker Data Wrangler и Amazon SageMaker Feature Store. В свободное время он любит медитировать, слушать аудиокниги, заниматься тяжелой атлетикой и смотреть стендап-комедии. Он никогда не станет стендап-комиком, но, по крайней мере, его мама считает его забавным.
Баладжи Туммала работает инженером-разработчиком программного обеспечения в Amazon SageMaker. Он помогает поддерживать Amazon SageMaker Data Wrangler и увлечен созданием производительного и масштабируемого программного обеспечения. Вне работы он любит читать художественную литературу и играть в волейбол.
Арунпрасат Шанкар является специалистом по архитектуре решений в области искусственного интеллекта и машинного обучения (AI / ML) в AWS, помогая клиентам во всем мире эффективно масштабировать свои решения AI в облаке. В свободное время Арун любит смотреть научно-фантастические фильмы и слушать классическую музыку.
- '
- 100
- О нас
- дополнительный
- адрес
- AI
- Все
- уже
- Amazon
- Создатель мудреца Амазонки
- анонсировать
- Приложения
- искусственный
- искусственный интеллект
- Искусственный интеллект и машинное обучение
- AWS
- ветви
- Строительство
- облако
- код
- комедия
- Консоли
- может
- Клиенты
- данным
- обработка данных
- Застройщик
- Развитие
- различный
- трутень
- легко
- инженер
- Инженеры
- пример
- опыт
- Впечатления
- экспорт
- быстрее
- Особенность
- Рассказы
- Поля
- поток
- следовать
- Бесплатно
- веселая
- будущее
- Общие
- порождать
- Глобальный
- Спорт зал
- имеющий
- помогает
- Как
- How To
- HTTPS
- ICON
- идея
- импортирующий
- информация
- Интеллекта
- интуитивный
- IT
- работа
- Джобс
- присоединиться
- Играя
- Jupyter Notebook
- Основные
- ключи
- запуск
- УЧИТЬСЯ
- изучение
- LINK
- Listening
- расположение
- обучение с помощью машины
- управление
- ML
- мама
- БОЛЕЕ
- Кино
- Музыка
- Новая функция
- узлы
- ноутбуки
- Предложения
- Откроется
- Опции
- процесс
- для защиты
- Питон
- вопрос
- Reading
- рекомендовать
- освободить
- обзоре
- Run
- sagemaker
- масштабируемые
- Шкала
- Ученые
- набор
- просто
- Software
- разработка программного обеспечения
- Решения
- Начало
- и политические лидеры
- диск
- магазин
- успех
- Успешно
- поддержка
- Поддержанный
- Поддержка
- Технический
- Терминал
- Будущее
- время
- Вид
- Что
- без
- Работа
- бы
- писатель
- письмо