Подготовка данных — важнейший этап любого рабочего процесса машинного обучения (ML), однако он часто включает в себя утомительные и трудоемкие задачи. Холст Amazon SageMaker теперь поддерживает комплексные возможности подготовки данных на базе Обработчик данных Amazon SageMaker. Благодаря этой интеграции SageMaker Canvas предоставляет клиентам комплексное рабочее пространство без программирования для подготовки данных, построения и использования моделей машинного обучения и базовых моделей, чтобы ускорить переход от данных к бизнес-аналитике. Теперь вы можете легко находить и агрегировать данные из более чем 50 источников данных, а также исследовать и подготавливать данные, используя более 300 встроенных методов анализа и преобразований в визуальном интерфейсе SageMaker Canvas. Вы также увидите более высокую производительность преобразований и анализа, а также интерфейс на естественном языке для исследования и преобразования данных для машинного обучения.
В этом посте мы покажем вам процесс подготовки данных для комплексного построения модели в SageMaker Canvas.
Обзор решения
В нашем случае мы берем на себя роль специалиста по данным в компании, предоставляющей финансовые услуги. Мы используем два выборочных набора данных для построения модели машинного обучения, которая прогнозирует, будет ли кредит полностью погашен заемщиком, что имеет решающее значение для управления кредитным риском. Среда SageMaker Canvas без программирования позволяет нам быстро подготовить данные, разработать функции, обучить модель машинного обучения и развернуть модель в сквозном рабочем процессе без необходимости кодирования.
Предпосылки
Чтобы следовать этому пошаговому руководству, убедитесь, что вы выполнили предварительные условия, как описано в разделе
- Запустите холст Amazon SageMaker. Если вы уже являетесь пользователем SageMaker Canvas, убедитесь, что вы выйти из системы и снова войдите в систему, чтобы иметь возможность использовать эту новую функцию.
- Чтобы импортировать данные из Snowflake, выполните шаги из Настройте OAuth для Snowflake.
Подготовьте интерактивные данные
После завершения настройки мы можем создать поток данных для интерактивной подготовки данных. Поток данных обеспечивает встроенные преобразования и визуализацию в реальном времени для обработки данных. Выполните следующие шаги:
- Создайте новый поток данных, используя один из следующих методов:
- Выберите Обработчик данных, Потоки данных, а затем выберите Создавай.
- Выберите набор данных SageMaker Canvas и выберите Создать поток данных.
- Выберите Даты импорта и табличный из раскрывающегося списка.
- Вы можете импортировать данные напрямую через более чем 50 соединителей данных, таких как Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshift, Снежинка и Salesforce. В этом пошаговом руководстве мы рассмотрим импорт ваших данных непосредственно из Snowflake.
Альтернативно вы можете загрузить тот же набор данных со своего локального компьютера. Вы можете скачать набор данных кредиты-часть-1.csv и кредиты-часть-2.csv.
- На странице «Импорт данных» выберите «Снежинка» из списка и выберите Добавить соединение.
- Введите имя для подключения, выберите OAuth вариант из раскрывающегося списка метода аутентификации. Введите идентификатор своей учетной записи okta и выберите «Добавить соединение».
- Вы будете перенаправлены на экран входа в систему Okta для ввода учетных данных Okta для аутентификации. При успешной аутентификации вы будете перенаправлены на страницу потока данных.
- Найдите набор данных о кредитах в базе данных Snowflake.
Выберите два набора данных о кредитах, перетащив их из левой части экрана в правую. Два набора данных соединятся, и появится символ соединения с красным восклицательным знаком. Нажмите на него, затем выберите для обоих наборов данных id ключ. Оставьте тип соединения как Внутренний. Должно получиться так:
- Выберите Сохранить и закрыть.
- Выберите Создать набор данных. Дайте имя набору данных.
- Перейдите к потоку данных, и вы увидите следующее.
- Чтобы быстро изучить данные о кредите, выберите Получите информацию о данных И выберите
loan_status
целевой столбец и классификация тип проблемы.
Сгенерированный Отчет о качестве данных и аналитике предоставляет ключевую статистику, визуализацию и анализ важности функций.
- Просмотрите предупреждения о проблемах с качеством данных и несбалансированных классах, чтобы понять и улучшить набор данных.
Для набора данных в этом случае использования следует ожидать предупреждения с высоким приоритетом «Очень низкая оценка быстрой модели» и очень низкой эффективности модели для классов меньшинств (списанных и текущих), что указывает на необходимость очистки и балансировки данных. Ссылаться на Документация по холсту чтобы узнать больше об отчете по аналитике данных.
Благодаря более чем 300 встроенным преобразованиям на базе SageMaker Data Wrangler SageMaker Canvas позволяет вам быстро обрабатывать данные о кредитах. Вы можете нажать на Добавить шаги просмотрите или найдите нужные преобразования. Для этого набора данных используйте Пропал без вести и Обработка выбросов для очистки данных, а затем применить Одно горячее кодирование, и Векторизовать текст для создания функций для ML.
Чат для подготовки данных — это новая возможность естественного языка, которая обеспечивает интуитивно понятный анализ данных путем описания запросов на простом английском языке. Например, вы можете получить статистику и провести корреляционный анализ данных по кредитам, используя натуральные фразы. SageMaker Canvas понимает и выполняет действия посредством диалогового взаимодействия, выводя подготовку данных на новый уровень.
Мы можем использовать Чат для подготовки данных и встроенное преобразование для балансировки данных о кредите.
- Сначала введите следующие инструкции:
replace “charged off” and “current” in loan_status with “default”
Чат для подготовки данных генерирует код для объединения двух классов меньшинства в один default
класса.
- Выбирайте встроенный Пронзила функция преобразования для генерации синтетических данных для класса по умолчанию.
Теперь у вас есть сбалансированный целевой столбец.
- После очистки и обработки данных о кредите заново создайте Отчет о качестве данных и аналитике чтобы просмотреть улучшения.
Предупреждение о высоком приоритете исчезло, что указывает на улучшение качества данных. При необходимости вы можете добавить дополнительные преобразования, чтобы повысить качество данных для обучения модели.
Масштабируйте и автоматизируйте обработку данных
Чтобы автоматизировать подготовку данных, вы можете запустить или запланировать весь рабочий процесс как распределенное задание обработки Spark для обработки всего набора данных или любых свежих наборов данных в любом масштабе.
- В поток данных добавьте целевой узел Amazon S3.
- Запустите задание обработки SageMaker, выбрав Создать работу.
- Настройте задание обработки и выберите Создавай, что позволяет потоку обрабатывать сотни ГБ данных без выборки.
Потоки данных могут быть включены в сквозные конвейеры MLOps для автоматизации жизненного цикла машинного обучения. Потоки данных могут передаваться в блокноты SageMaker Studio в качестве этапа обработки данных в конвейере SageMaker или для развертывания конвейера вывода SageMaker. Это позволяет автоматизировать процесс от подготовки данных до обучения и размещения SageMaker.
Создайте и разверните модель в SageMaker Canvas.
После подготовки данных мы можем легко экспортировать окончательный набор данных в SageMaker Canvas, чтобы построить, обучить и развернуть модель прогнозирования платежей по кредиту.
- Выберите Создать модель в последнем узле потока данных или на панели узлов.
При этом набор данных будет экспортирован и запустится рабочий процесс создания управляемой модели.
- Назовите экспортированный набор данных и выберите Экспортировать.
- Выберите Создать модель из уведомления.
- Назовите модель, выберите Прогнозный анализ, и выберите Создавай.
Это перенаправит вас на страницу построения модели.
- Продолжайте создавать модели SageMaker Canvas, выбрав целевой столбец и тип модели, а затем выберите Быстрая сборка or Стандартная сборка.
Дополнительную информацию об опыте построения моделей см. Построить модель.
После завершения обучения вы можете использовать модель для прогнозирования новых данных или их развертывания. Ссылаться на Развертывание моделей машинного обучения, созданных в Amazon SageMaker Canvas, на конечных точках Amazon SageMaker в режиме реального времени. чтобы узнать больше о развертывании модели из SageMaker Canvas.
Заключение
В этом посте мы продемонстрировали комплексные возможности SageMaker Canvas, взяв на себя роль специалиста по финансовым данным, готовящего данные для прогнозирования выплат по кредиту, с помощью SageMaker Data Wrangler. Интерактивная подготовка данных позволила быстро очистить, преобразовать и проанализировать данные о кредитах для разработки информативных функций. Устранив сложности кодирования, SageMaker Canvas позволил нам быстро выполнить итерации для создания высококачественного набора обучающих данных. Этот ускоренный рабочий процесс ведет непосредственно к созданию, обучению и развертыванию эффективной модели машинного обучения для повышения эффективности бизнеса. Благодаря комплексной подготовке данных и унифицированному опыту от данных до аналитики, SageMaker Canvas дает вам возможность улучшить результаты машинного обучения. Дополнительную информацию о том, как ускорить переход от данных к бизнес-аналитике, см. День погружения в SageMaker Canvas и Руководство пользователя AWS.
Об авторах
доктор Чанша Ма — специалист по AI/ML в AWS. Она технолог с докторской степенью в области компьютерных наук, степенью магистра в области педагогической психологии и многолетним опытом работы в области науки о данных и независимого консультирования в области искусственного интеллекта и машинного обучения. Она увлечена исследованием методологических подходов к машинному и человеческому интеллекту. Вне работы она любит пешие походы, готовку, охоту за едой и проводить время с друзьями и семьей.
Аджай Говиндарам является старшим архитектором решений в AWS. Он работает со стратегическими клиентами, которые используют AI/ML для решения сложных бизнес-задач. Его опыт заключается в обеспечении технического руководства, а также помощи в проектировании развертывания приложений AI/ML от скромных до крупномасштабных. Его знания варьируются от архитектуры приложений до больших данных, аналитики и машинного обучения. Ему нравится слушать музыку во время отдыха, отдыхать на свежем воздухе и проводить время со своими близкими.
Хуонг Нгуен — старший менеджер по продукту в AWS. Она возглавляет подготовку данных машинного обучения для SageMaker Canvas и SageMaker Data Wrangler и имеет 15-летний опыт создания продуктов, ориентированных на клиента и управляемых данными.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :имеет
- :является
- $UP
- 100
- 12
- 13
- 14
- 15 лет
- 15%
- 300
- 50
- 8
- a
- в состоянии
- О нас
- ускорять
- ускоренный
- Учетная запись
- действия
- Добавить
- совокупный
- AI / ML
- разрешено
- позволяет
- вдоль
- уже
- причислены
- Amazon
- Создатель мудреца Амазонки
- Холст Amazon SageMaker
- Amazon Web Services
- an
- анализирует
- анализ
- аналитика
- анализ
- и
- любой
- появиться
- Применение
- подходы
- архитектура
- МЫ
- AS
- Помощь
- At
- проверять подлинность
- Аутентификация
- автоматизировать
- Автоматизация
- AWS
- назад
- Баланс
- Уравновешенный
- BE
- большой
- Big Data
- булавка
- заемщик
- изоферменты печени
- строить
- Строительство
- построенный
- встроенный
- бизнес
- влияние на бизнес
- by
- CAN
- Может получить
- холст
- возможности
- возможности
- случаев
- заряженный
- Выберите
- Выбирая
- класс
- классов
- чистым
- Уборка
- нажмите на
- код
- Кодирование
- Column
- Компания
- полный
- комплекс
- сложности
- комплексный
- компьютер
- Информатика
- Свяжитесь
- связи
- консалтинг
- диалоговый
- приготовление
- Корреляция
- чехол для варгана
- Создайте
- создание
- Полномочия
- кредит
- решающее значение
- Текущий
- Клиенты
- данным
- анализ данных
- Подготовка данных
- обработка данных
- Качество данных
- наука о данных
- управляемых данными
- Наборы данных
- По умолчанию
- Степень
- убивают
- развертывание
- развертывание
- развертывания
- описывающих
- Проект
- назначение
- подробный
- направление
- непосредственно
- обнаружить
- распределенный
- вниз
- скачать
- Падение
- Опустившись
- легко
- Обучение
- эффективность
- Наделяет
- включить
- включен
- позволяет
- позволяет
- впритык
- инженер
- Английский
- повышать
- обеспечивать
- Enter
- Весь
- Окружающая среда
- Эфир (ETH)
- пример
- ожидать
- опыт
- испытывающих
- Больше
- экспорт
- Izvoz,en
- семей
- быстрее
- Особенность
- Особенности
- окончательный
- финансовый
- финансовые данные
- финансовые услуги
- компания финансовых услуг
- поток
- Потоки
- следовать
- после
- питание
- Что касается
- Устои
- свежий
- друзья
- от
- полностью
- функция
- далее
- порождать
- генерируется
- генерирует
- получить
- Дайте
- управляемый
- Есть
- he
- High
- высококачественный
- пеший туризм
- его
- хостинг
- Как
- How To
- HTML
- HTTP
- HTTPS
- человек
- человеческий интеллект
- Сотни
- охота
- ID
- if
- несбалансированный
- погружение
- Влияние
- в XNUMX году
- Импортировать
- значение
- импортирующий
- улучшать
- улучшенный
- улучшение
- in
- включенный
- независимые
- с указанием
- информация
- информативный
- понимание
- размышления
- инструкции
- интеграции.
- Интеллекта
- взаимодействие
- интерактивный
- Интерфейс
- в
- интуитивный
- включает в себя
- вопросы
- IT
- ЕГО
- работа
- присоединиться
- Путешествия
- JPG
- Основные
- знания
- язык
- крупномасштабный
- Фамилия
- запускает
- ведущий
- Лиды
- УЧИТЬСЯ
- изучение
- Оставлять
- оставил
- уровень
- лежит
- Жизненный цикл
- такое как
- Список
- Listening
- варианты
- Кредиты
- локальным
- журнал
- Войти
- посмотреть
- выглядит как
- любимый
- любит
- Низкий
- машина
- обучение с помощью машины
- сделать
- менеджер
- управления
- отметка
- магистра
- идти
- метод
- методы
- меньшинство
- ML
- млн операций в секунду
- модель
- Модели
- скромный
- БОЛЕЕ
- Музыка
- имя
- натуральный
- Естественный язык
- Необходимость
- необходимый
- Новые
- Новая функция
- следующий
- узел
- узлы
- ноутбуки
- уведомление
- сейчас
- OAuth
- of
- от
- .
- ОКТА
- on
- ONE
- те,
- Опция
- or
- наши
- Результаты
- на открытом воздухе
- внешнюю
- за
- страница
- хлеб
- страстный
- оплата
- производительность
- кандидат наук
- фразы
- трубопровод
- одноцветный
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- После
- Питание
- предсказывать
- прогноз
- предсказывает
- подготовка
- Подготовить
- подготовка
- предпосылки
- приоритет
- Проблема
- проблемам
- процесс
- обработка
- Продукт
- Менеджер по продукции
- Продукция
- профессиональный
- приводит
- обеспечение
- Психология
- быстро
- быстро
- реального времени
- Red
- переориентировать
- относиться
- удаление
- отчету
- Запросы
- отдыха
- обзоре
- правую
- Снижение
- Роли
- Run
- работает
- sagemaker
- Вывод SageMaker
- Salesforce
- то же
- Шкала
- график
- Наука
- экран
- легко
- Поиск
- посмотреть
- выберите
- старший
- Услуги
- сервисная компания
- установка
- она
- должен
- сторона
- просто
- Решения
- РЕШАТЬ
- Источники
- Искриться
- специалист
- Расходы
- статистика
- Шаг
- Шаги
- диск
- Стратегический
- студия
- успешный
- такие
- Поддержка
- Убедитесь
- символ
- синтетический
- синтетические данные
- с
- цель
- задачи
- Технический
- технолог
- который
- Ассоциация
- Их
- тогда
- этой
- Через
- время
- кропотливый
- в
- Train
- Обучение
- Transform
- преобразований
- превращение
- прообразы
- два
- напишите
- понимать
- понимает
- унифицированный
- us
- использование
- прецедент
- Информация о пользователе
- через
- очень
- визуальный
- от
- прохождение
- предупреждение
- we
- Web
- веб-сервисы
- ЧТО Ж
- будь то
- который
- в то время как
- КТО
- все
- будете
- без
- Работа
- рабочий
- работает
- Семинары
- бы
- лет
- еще
- являетесь
- ВАШЕ
- зефирнет