Підготовка даних — важливий крок у будь-якому робочому процесі машинного навчання (ML), але він часто передбачає виснажливі та трудомісткі завдання. Canvas Amazon SageMaker тепер підтримує комплексні можливості підготовки даних на основі Amazon SageMaker Data Wrangler. Завдяки цій інтеграції SageMaker Canvas надає клієнтам наскрізний робочий простір без коду для підготовки даних, створення та використання моделей машинного навчання та базових моделей, щоб пришвидшити час від отримання даних до бізнес-аналітики. Тепер ви можете легко знаходити та агрегувати дані з понад 50 джерел даних, а також досліджувати та готувати дані за допомогою понад 300 вбудованих засобів аналізу та перетворень у візуальному інтерфейсі SageMaker Canvas. Ви також побачите більш високу продуктивність для трансформацій і аналізів, а також інтерфейс природної мови для дослідження та трансформації даних для ML.
У цій публікації ми ознайомимо вас із процесом підготовки даних для створення наскрізної моделі в SageMaker Canvas.
Огляд рішення
Для нашого випадку використання ми беремо на себе роль спеціаліста з обробки даних у компанії, що надає фінансові послуги. Ми використовуємо два зразки наборів даних, щоб створити модель ML, яка передбачає, чи буде позика повністю погашена позичальником, що має вирішальне значення для управління кредитним ризиком. Безкодове середовище SageMaker Canvas дозволяє нам швидко підготувати дані, розробити функції, навчити модель ML і розгорнути модель у наскрізному робочому процесі без необхідності кодування.
Передумови
Щоб дотримуватися цього покрокового керівництва, переконайтеся, що ви реалізували передумови, як описано в
- Запустіть Amazon SageMaker Canvas. Якщо ви вже є користувачем SageMaker Canvas, переконайтеся, що ви вийти і знову увійдіть, щоб мати можливість використовувати цю нову функцію.
- Щоб імпортувати дані зі Snowflake, виконайте кроки з Налаштуйте OAuth для Snowflake.
Підготуйте інтерактивні дані
Після завершення налаштування ми можемо створити потік даних для інтерактивної підготовки даних. Потік даних забезпечує вбудовані перетворення та візуалізацію в реальному часі для суперечок між даними. Виконайте наступні дії:
- Створіть новий потік даних одним із наведених нижче методів.
- Вибирати Data Wrangler, Дані потоків, Потім виберіть Створювати.
- Виберіть набір даних SageMaker Canvas і виберіть Створіть потік даних.
- Вибирати Дати імпорту і виберіть Табличний з розкривного списку.
- Ви можете імпортувати дані безпосередньо через понад 50 з’єднувачів даних, наприклад Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна, Snowflake і Salesforce. У цьому покроковому керівництві ми розглянемо імпорт ваших даних безпосередньо зі Snowflake.
Крім того, ви можете завантажити той самий набір даних зі свого локального комп’ютера. Ви можете завантажити набір даних позики-частина-1.csv та позики-частина-2.csv.
- На сторінці «Імпорт даних» виберіть зі списку «Сніжинка» та виберіть Додати підключення.
- Введіть назву підключення, виберіть OAuth зі спадного списку методів автентифікації. Введіть ідентифікатор свого облікового запису okta та виберіть Додати підключення.
- Ви будете перенаправлені на екран входу Okta, щоб ввести облікові дані Okta для автентифікації. Після успішної автентифікації ви будете перенаправлені на сторінку потоку даних.
- Перегляньте, щоб знайти набір даних позики в базі даних Snowflake
Виберіть два набори даних позик, перетягнувши їх із лівого краю екрана вправо. Два набори даних з’єднаються, і з’явиться символ об’єднання з червоним знаком оклику. Натисніть на нього, а потім виберіть для обох наборів даних id ключ. Залиште тип об’єднання як Внутрішній. Це має виглядати так:
- Вибирати Зберегти та закрити.
- Вибирати Створити набір даних. Дайте назву набору даних.
- Перейдіть до потоку даних, ви побачите наступне.
- Щоб швидко ознайомитися з кредитними даними, виберіть Отримайте статистику даних і виберіть
loan_status
цільовий стовпець і Класифікація тип проблеми.
Створене Звіт про якість і аналіз даних надає ключову статистику, візуалізацію та аналіз важливості функцій.
- Перегляньте попередження про проблеми з якістю даних і незбалансовані класи, щоб зрозуміти та покращити набір даних.
Для набору даних у цьому випадку використання ви повинні очікувати попередження високого пріоритету «Дуже низька оцінка швидкої моделі» та дуже низьку ефективність моделі для меншинних класів (списаних і поточних), що вказує на необхідність очистити та збалансувати дані. Відноситься до Документація Canvas щоб дізнатися більше про звіт статистики даних.
Завдяки понад 300 вбудованим трансформаціям на основі SageMaker Data Wrangler, SageMaker Canvas дає змогу швидко обговорювати дані позики. Ви можете натиснути на Додати крок, і перегляньте або знайдіть правильні трансформації. Для цього набору даних використовуйте Відсутня крапля та Обробляйте викиди щоб очистити дані, потім застосувати Одночасне кодування, та Векторизація тексту для створення функцій для ML.
Чат для підготовки даних це нова функція природної мови, яка забезпечує інтуїтивно зрозумілий аналіз даних шляхом опису запитів простою англійською мовою. Наприклад, ви можете отримати статистичні дані та аналіз кореляції функцій щодо даних позики за допомогою природних фраз. SageMaker Canvas розуміє та запускає дії через розмовну взаємодію, виводячи підготовку даних на новий рівень.
Ми можемо використовувати Чат для підготовки даних і вбудоване перетворення для збалансування даних позики.
- Спочатку введіть такі інструкції:
replace “charged off” and “current” in loan_status with “default”
Чат для підготовки даних генерує код для об’єднання двох меншинних класів в один default
клас.
- Вибирайте вбудований ПРИГРИТИ функція transform для створення синтетичних даних для класу за замовчуванням.
Тепер у вас є збалансована цільова колонка.
- Після очищення та обробки даних кредиту повторно згенеруйте Звіт про якість і аналіз даних щоб переглянути покращення.
Попередження про високий пріоритет зникло, що вказує на покращення якості даних. За потреби можна додати додаткові перетворення, щоб покращити якість даних для навчання моделі.
Масштабувати та автоматизувати обробку даних
Щоб автоматизувати підготовку даних, ви можете запустити або запланувати весь робочий процес як розподілене завдання обробки Spark для обробки всього набору даних або будь-яких нових наборів даних у масштабі.
- У потоці даних додайте вузол призначення Amazon S3.
- Запустіть завдання обробки SageMaker, вибравши Створити роботу.
- Налаштуйте завдання обробки та виберіть Створювати, що дозволяє потоку працювати на сотнях ГБ даних без вибірки.
Потоки даних можна включати в наскрізні конвеєри MLOps для автоматизації життєвого циклу ML. Потоки даних можуть надходити в блокноти SageMaker Studio як етап обробки даних у конвеєрі SageMaker або для розгортання конвеєра висновку SageMaker. Це дозволяє автоматизувати потік від підготовки даних до навчання та розміщення SageMaker.
Створіть і розгорніть модель у SageMaker Canvas
Після підготовки даних ми можемо безперешкодно експортувати остаточний набір даних у SageMaker Canvas для створення, навчання та розгортання моделі прогнозування платежів за кредитом.
- Вибирати Створити модель в останньому вузлі потоку даних або на панелі вузлів.
Це експортує набір даних і запускає робочий процес створення керованої моделі.
- Назвіть експортований набір даних і виберіть Експорт.
- Вибирати Створити модель із сповіщення.
- Назвіть модель, виберіть Прогностичний аналіз, і вибрати Створювати.
Це перенаправить вас на сторінку побудови моделі.
- Продовжте роботу зі створення моделі SageMaker Canvas, вибравши цільовий стовпець і тип моделі, а потім виберіть Швидка збірка or Стандартна збірка.
Щоб дізнатися більше про досвід створення моделі, див Побудуйте модель.
Після завершення навчання ви можете використовувати модель, щоб передбачити нові дані або розгорнути їх. Відноситься до Розгортайте моделі ML, створені в Amazon SageMaker Canvas, на кінцевих точках Amazon SageMaker у реальному часі щоб дізнатися більше про розгортання моделі з SageMaker Canvas.
Висновок
У цій публікації ми продемонстрували наскрізні можливості SageMaker Canvas, взявши на себе роль спеціаліста з фінансових даних, який готує дані для прогнозування виплати кредиту за допомогою SageMaker Data Wrangler. Інтерактивна підготовка даних дозволила швидко очищати, трансформувати та аналізувати дані про кредити для створення інформативних функцій. Усунувши складність кодування, SageMaker Canvas дозволив нам швидко виконувати ітерації для створення високоякісного навчального набору даних. Цей прискорений робочий процес веде безпосередньо до створення, навчання та розгортання ефективної моделі машинного навчання для впливу на бізнес. Завдяки всебічній підготовці даних і уніфікованому досвіду від даних до розуміння, SageMaker Canvas дає змогу покращити результати МЛ. Додаткову інформацію про те, як пришвидшити шлях від даних до бізнес-аналізу, див День занурення в SageMaker Canvas та Посібник користувача AWS.
Про авторів
Д-р Чанша Ма є спеціалістом зі штучного інтелекту та ML в AWS. Вона технолог зі ступенем доктора філософії з комп’ютерних наук, ступенем магістра з педагогічної психології та багаторічним досвідом роботи з даними та незалежним консультуванням у сфері ШІ/ML. Вона захоплена дослідженням методологічних підходів до машинного та людського інтелекту. Поза роботою вона любить піші прогулянки, кулінарію, мисливську їжу та проводити час з друзями та родиною.
Аджай Говіндарам є старшим архітектором рішень в AWS. Він працює зі стратегічними клієнтами, які використовують AI/ML для вирішення складних бізнес-завдань. Його досвід полягає в наданні технічного керівництва, а також у допомозі в розробці скромних і великомасштабних розгортань програм AI/ML. Його знання варіюються від архітектури додатків до великих даних, аналітики та машинного навчання. Йому подобається слухати музику під час відпочинку, гуляти на природі та проводити час зі своїми близькими.
Хуонг Нгуєн є старшим менеджером із продуктів в AWS. Вона очолює підготовку даних ML для SageMaker Canvas і SageMaker Data Wrangler, маючи 15-річний досвід створення продуктів, орієнтованих на клієнта та керованих даними.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- : має
- :є
- $UP
- 100
- 12
- 13
- 14
- 15 роки
- 15%
- 300
- 50
- 8
- a
- Здатний
- МЕНЮ
- прискорювати
- прискорений
- рахунки
- дії
- додавати
- сукупність
- AI / ML
- дозволено
- дозволяє
- по
- вже
- Також
- Amazon
- Amazon SageMaker
- Canvas Amazon SageMaker
- Amazon Web Services
- an
- аналізи
- аналіз
- аналітика
- Аналізуючи
- та
- будь-який
- з'являтися
- додаток
- підходи
- архітектура
- ЕСТЬ
- AS
- Допомога
- At
- перевіряти справжність
- Authentication
- автоматизувати
- автоматизація
- AWS
- назад
- Balance
- Збалансований
- BE
- Великий
- Великий даних
- сміливий
- позичальника
- обидва
- будувати
- Створюємо
- побудований
- вбудований
- бізнес
- вплив на бізнес
- by
- CAN
- Може отримати
- полотно
- можливості
- можливості
- випадок
- стягується
- Вибирати
- Вибираючи
- клас
- класів
- очистити
- Очищення
- клацання
- код
- Кодування
- Колонка
- компанія
- повний
- комплекс
- складності
- всеосяжний
- комп'ютер
- Інформатика
- З'єднуватися
- зв'язку
- консалтинг
- діалоговий
- приготування
- Кореляція
- обкладинка
- створювати
- створення
- Повноваження
- кредит
- вирішальне значення
- Поточний
- Клієнти
- дані
- аналіз даних
- Підготовка даних
- обробка даних
- якість даних
- наука про дані
- керовані даними
- набори даних
- дефолт
- Ступінь
- продемонстрований
- розгортання
- розгортання
- розгортання
- описують
- дизайн
- призначення
- докладно
- напрям
- безпосередньо
- відкрити
- розподілений
- вниз
- скачати
- Падіння
- Випадання
- легко
- Освіта
- ефективність
- повноваження
- включіть
- включений
- дозволяє
- дозволяє
- кінець в кінець
- інженер
- англійська
- підвищувати
- забезпечувати
- Що натомість? Створіть віртуальну версію себе у
- Весь
- Навколишнє середовище
- Ефір (ETH)
- приклад
- очікувати
- досвід
- зазнають
- дослідити
- експорт
- експорт
- сімей
- швидше
- особливість
- риси
- остаточний
- фінансовий
- фінансові дані
- фінансові послуги
- компанія фінансових послуг
- потік
- Потоки
- стежити
- після
- харчування
- для
- Підвалини
- свіжий
- друзі
- від
- повністю
- функція
- далі
- породжувати
- генерується
- генерує
- отримати
- Давати
- керуватися
- Мати
- he
- Високий
- високоякісний
- піший туризм
- його
- хостинг
- Як
- How To
- HTML
- HTTP
- HTTPS
- людина
- людський інтелект
- Сотні
- Полювання
- ID
- if
- незбалансований
- занурення
- Impact
- реалізовані
- імпорт
- значення
- імпорт
- удосконалювати
- поліпшений
- поліпшення
- in
- Зареєстрований
- незалежний
- вказуючи
- інформація
- інформативний
- розуміння
- розуміння
- інструкції
- інтеграція
- Інтелект
- Взаємодії
- інтерактивний
- інтерфейс
- в
- інтуїтивний
- включає в себе
- питання
- IT
- ЙОГО
- робота
- приєднатися
- Подорожі
- JPG
- ключ
- знання
- мова
- масштабний
- останній
- запуски
- провідний
- Веде за собою
- УЧИТЬСЯ
- вивчення
- Залишати
- залишити
- рівень
- лежить
- Життєвий цикл
- як
- список
- Прослуховування
- позику
- Кредити
- місцевий
- журнал
- Логін
- подивитися
- виглядає як
- улюблене
- любить
- низький
- машина
- навчання за допомогою машини
- зробити
- менеджер
- управління
- позначити
- магістра
- Злиття
- метод
- методика
- меншість
- ML
- MLOps
- модель
- Моделі
- скромний
- більше
- музика
- ім'я
- Природний
- Природна мова
- Необхідність
- необхідний
- Нові
- Нова функція
- наступний
- вузол
- вузли
- ноутбуки
- сповіщення
- зараз
- oauth
- of
- від
- часто
- ОКТА
- on
- ONE
- ті,
- варіант
- or
- наші
- Результати
- на відкритому повітрі
- поза
- над
- сторінка
- pane
- пристрасний
- оплата
- продуктивність
- Вчений ступінь
- фрази
- трубопровід
- одноколірний
- plato
- Інформація про дані Платона
- PlatoData
- пошта
- Харчування
- передбачати
- прогноз
- Прогнози
- підготовка
- Готувати
- підготовка
- передумови
- пріоритет
- Проблема
- проблеми
- процес
- обробка
- Product
- менеджер по продукції
- Продукти
- професійний
- забезпечує
- забезпечення
- Психологія
- якість
- швидко
- швидко
- реального часу
- червоний
- переадресовувати
- послатися
- видалення
- звітом
- запитів
- відпочиваючи
- огляд
- право
- Risk
- Роль
- прогін
- пробіжки
- мудрець
- Висновок SageMaker
- Salesforce
- то ж
- шкала
- розклад
- наука
- Екран
- плавно
- Пошук
- побачити
- вибрати
- старший
- Послуги
- послуги компанії
- установка
- вона
- Повинен
- сторона
- простий
- Рішення
- ВИРІШИТИ
- Джерела
- Іскритися
- спеціаліст
- Витрати
- статистика
- Крок
- заходи
- зберігання
- Стратегічний
- студія
- успішний
- такі
- Опори
- Переконайтеся
- символ
- синтетичний
- синтетичні дані
- взяття
- Мета
- завдання
- технічний
- технолог
- Що
- Команда
- Їх
- потім
- це
- через
- час
- трудомісткий
- до
- поїзд
- Навчання
- Перетворення
- перетворень
- перетворення
- перетворення
- два
- тип
- розуміти
- розумієш
- єдиний
- us
- використання
- використання випадку
- користувач
- використання
- дуже
- візуальний
- ходити
- покрокове керівництво
- попередження
- we
- Web
- веб-сервіси
- ДОБРЕ
- Чи
- який
- в той час як
- ВООЗ
- всі
- волі
- з
- без
- Work
- робочий
- працює
- Семінари
- б
- років
- ще
- ви
- вашу
- зефірнет