Запускайте завдання обробки кількома клацаннями за допомогою Amazon SageMaker Data Wrangler

Вихідний вузол: 1600104

Amazon SageMaker Data Wrangler дозволяє науковцям та інженерам швидше готувати дані для програм машинного навчання (ML) за допомогою візуального інтерфейсу. Раніше, коли ви створювали потік даних Data Wrangler, ви могли вибрати різні параметри експорту, щоб легко інтегрувати цей потік даних у ваш конвеєр обробки даних. Data Wrangler пропонує варіанти експорту в Служба простого зберігання Amazon (Amazon S3), Трубопроводи SageMaker та Магазин функцій SageMaker, або як код Python. Параметри експорту створюють блокнот Jupyter і вимагають від вас запустити код, щоб розпочати завдання обробки Обробка SageMaker.

Ми раді оголосити про загальний випуск вузлів призначення та функції «Створити завдання» в Data Wrangler. Ця функція дає вам можливість експортувати всі перетворення, які ви зробили в наборі даних, у вузол призначення лише кількома клацаннями. Це дозволяє створювати завдання обробки даних і експортувати їх до Amazon S3 виключно через візуальний інтерфейс без необхідності створювати, запускати або керувати блокнотами Jupyter, тим самим покращуючи роботу з низьким кодом. Щоб продемонструвати цю нову функцію, ми використовуємо Набір даних Титаніка і показати, як експортувати ваші перетворення до вузла призначення.

Передумови

Перш ніж ми навчимося використовувати цільові вузли з Data Wrangler, ви вже повинні зрозуміти, як це робити отримати доступ і розпочати роботу з Data Wrangler. Ви також повинні знати, що а потік даних засоби з контекстом для Data Wrangler і як створити його, імпортувавши ваші дані з різних джерел даних, які підтримує Data Wrangler.

Огляд рішення

Розглянемо наступний потік даних під назвою example-titanic.flow:

  • Він імпортує набір даних Titanic тричі. Ви можете бачити ці різні імпортовані дані як окремі гілки в потоці даних.
  • Для кожної гілки він застосовує набір трансформацій і візуалізацій.
  • Він об’єднує гілки в єдиний вузол з усіма трансформаціями та візуалізаціями.

За допомогою цього потоку ви можете обробити та зберегти частини своїх даних у певній гілці чи місці.

У наступних кроках ми демонструємо, як створити цільові вузли, експортувати їх до Amazon S3, а також створити та запустити завдання обробки.

Створіть вузол призначення

Ви можете скористатися наведеною нижче процедурою, щоб створити цільові вузли та експортувати їх у сегмент S3:

  1. Визначте, які частини файлу потоку (перетворення) ви хочете зберегти.
  2. Виберіть знак «плюс» біля вузлів, які представляють перетворення, які ви хочете експортувати. (Якщо це згорнутий вузол, ви повинні вибрати піктограму параметрів (три крапки) для вузла).
  3. Наведіть курсор миші на Додати пункт призначення.
  4. Вибирати Amazon S3.
  5. Укажіть поля, як показано на наступному знімку екрана.
  6. Для другого вузла приєднання виконайте ті самі дії, щоб додати Amazon S3 як пункт призначення та вказати поля.

Ви можете повторювати ці кроки стільки разів, скільки вам потрібно, для стільки вузлів, скільки потрібно у вашому потоці даних. Пізніше ви вибираєте, які цільові вузли включити в завдання обробки.

Запустіть завдання обробки

Скористайтеся наведеною нижче процедурою, щоб створити завдання обробки та вибрати вузол призначення, куди потрібно експортувати:

  1. на Потік даних вкладку, виберіть Створити роботу.
  2. для Назва роботи¸ введіть назву завдання експорту.
  3. Виберіть цільові вузли, які потрібно експортувати.
  4. Додатково вкажіть Служба управління ключами AWS (AWS KMS) ключ ARN.

Ключ KMS — це криптографічний ключ, який можна використовувати для захисту ваших даних. Додаткову інформацію про ключі KMS див Ключовий посібник розробника AWS.

  1. Вибирати Далі 2. Налаштувати завдання.
  2. За бажанням ви можете налаштувати завдання відповідно до своїх потреб, змінивши тип або кількість екземплярів або додавши будь-які теги, пов’язані з завданням.
  3. Вибирати прогін щоб запустити роботу.

Після успішного створення завдання з’являється повідомлення про успішне виконання.

Переглянути остаточні дані

Нарешті, ви можете скористатися такими кроками, щоб переглянути експортовані дані:

  1. Після створення завдання виберіть надане посилання.

Відкриється нова вкладка, яка показує завдання обробки на консолі SageMaker.

  1. Після завершення роботи перегляньте експортовані дані на консолі Amazon S3.

Ви повинні побачити нову папку з назвою завдання, яке ви вибрали.

  1. Виберіть назву завдання, щоб переглянути файл CSV (або декілька файлів) із остаточними даними.

FAQ

У цьому розділі ми відповімо на кілька поширених запитань про цю нову функцію:

  • Що сталося з вкладкою «Експорт»? Завдяки цій новій функції ми видалили Експорт з Data Wrangler. Ви все ще можете полегшити функцію експорту через блокноти Jupyter, згенеровані Data Wrangler, з будь-яких вузлів, які ви створили в потоці даних, виконавши такі дії:
    1. Виберіть знак плюса біля вузла, який потрібно експортувати.
    2. Вибирати Експортувати в.
    3. Вибирати Amazon S3 (через Jupyter Notebook).
    4. Запустіть блокнот Jupyter.
  • Скільки вузлів призначення я можу включити до завдання? Є максимум 10 адресатів на одне завдання обробки.
  • Скільки вузлів призначення можна мати у файлі потоку? Ви можете мати скільки завгодно вузлів призначення.
  • Чи можу я додати трансформації після вузлів призначення? Ні, ідея полягає в тому, що вузли призначення є кінцевими вузлами, які не мають подальших кроків.
  • Які підтримувані джерела я можу використовувати з вузлами призначення? На момент написання цієї статті ми підтримуємо лише Amazon S3 як джерело призначення. У майбутньому буде додано підтримку для інших типів джерел призначення. Будь ласка, зв’яжіться з нами, якщо ви хотіли б побачити щось конкретне.

Підсумки

У цій публікації ми продемонстрували, як використовувати нещодавно запущені цільові вузли для створення завдань обробки та збереження перетворених наборів даних безпосередньо в Amazon S3 через візуальний інтерфейс Data Wrangler. За допомогою цієї додаткової функції ми розширили інструментальний досвід Data Wrangler з низьким кодом.

У якості наступних кроків ми рекомендуємо вам спробувати приклад, продемонстрований у цій публікації. Якщо у вас виникли запитання або ви хочете дізнатися більше, див Експорт або залиште запитання в коментарях.


Про авторів

Альфонсо Остін-Рівера є інженером переднього плану в Amazon SageMaker Data Wrangler. Він захоплений створенням інтуїтивно зрозумілого користувацького досвіду, який викликає радість. У вільний час ви можете знайти його, борючись із гравітацією в тренажерному залі для скелелазіння або на вулиці, керуючи дроном.

Парса Шахбодагі є технічним письменником в AWS, який спеціалізується на машинному навчанні та штучному інтелекті. Він пише технічну документацію для Amazon SageMaker Data Wrangler і Amazon SageMaker Feature Store. У вільний час він любить медитувати, слухати аудіокниги, займатися важкою атлетикою та дивитися стендап-комедії. Він ніколи не стане стендап-коміком, але принаймні його мама вважає його кумедним.

Баладжі Туммала є інженером із розробки програмного забезпечення в Amazon SageMaker. Він допомагає підтримувати Amazon SageMaker Data Wrangler і захоплюється створенням продуктивного та масштабованого програмного забезпечення. Поза роботою захоплюється читанням художньої літератури та грою у волейбол.

Арунпрасат Шанкар є архітектором спеціалізованих рішень із штучного інтелекту та машинного навчання (AI / ML) з AWS, допомагаючи світовим клієнтам ефективно та ефективно масштабувати свої рішення в галузі ШІ в хмарі. У вільний час Арун із задоволенням дивиться науково-фантастичні фільми та слухає класичну музику.

Джерело: https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

Часова мітка:

Більше від Блог машинного навчання AWS