Amazon SageMaker Data Wrangler це нова можливість Amazon SageMaker що дозволяє науковцям та інженерам швидше готувати дані для програм машинного навчання (ML) через візуальний інтерфейс. Підготовка даних є вирішальним етапом життєвого циклу ML, і Data Wrangler надає комплексне рішення для імпорту, підготовки, трансформації, представлення та аналізу даних для ML у бездоганній, візуальній інтерфейсі з низьким кодом. Це дозволяє легко та швидко підключатися до таких компонентів AWS, як Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна та Формування озера AWS, а також зовнішні джерела, такі як Snowflake. Data Wrangler також підтримує стандартні типи даних, такі як CSV і Parquet.
Data Wrangler тепер додатково підтримує Optimized Row Columnar (ОРК), формати файлів JavaScript Object Notation (JSON) і JSON Lines (JSONL):
- ОРК – Формат файлу ORC забезпечує високоефективний спосіб зберігання даних Hive. Його розроблено, щоб подолати обмеження інших форматів файлів Hive. Використання файлів ORC покращує продуктивність, коли Hive читає, записує та обробляє дані. ORC широко використовується в екосистемі Hadoop.
- JSON – Формат файлу JSON є легким, широко використовуваним форматом обміну даними.
- JSONL – Рядки JSON, які також називають JSON із роздільниками нового рядка, є зручним форматом для зберігання структурованих даних, які можуть оброблятися по одному запису за раз.
Ви можете попередньо переглянути дані ORC, JSON і JSONL перед імпортом наборів даних у Data Wrangler. Після імпорту даних ви також можете використовувати один із нещодавно запущених трансформаторів для роботи зі стовпцями, які містять рядки JSON або масиви, які зазвичай зустрічаються у вкладених JSON.
Імпортуйте та аналізуйте дані ORC за допомогою Data Wrangler
Імпорт даних ORC у Data Wrangler простий і подібний до імпорту файлів у будь-яких інших підтримуваних форматах. Знайдіть свій файл ORC в Amazon S3 і в ПОДРОБИЦІ виберіть ORC як тип файлу під час імпорту.
Якщо ви новачок у Data Wrangler, перегляньте Почніть роботу з Data Wrangler. Також див Імпортувати щоб дізнатися про різні варіанти імпорту.
Імпортуйте та аналізуйте дані JSON за допомогою Data Wrangler
Тепер давайте імпортувати файли у форматі JSON за допомогою Data Wrangler і працювати зі стовпцями, які містять рядки або масиви JSON. Ми також демонструємо, як працювати з вкладеними файлами JSON. За допомогою Data Wrangler імпорт файлів JSON з Amazon S3 є безперебійним процесом. Це подібно до імпортування файлів у будь-яких інших підтримуваних форматах. Після імпорту файлів ви можете попередньо переглянути файли JSON, як показано на наступному знімку екрана. Переконайтеся, що вказано тип файлу JSON у ПОДРОБИЦІ панель
Далі попрацюємо зі структурованими стовпцями в імпортованому файлі JSON.
Щоб працювати зі структурованими стовпцями у файлах JSON, Data Wrangler представляє два нових перетворення: Вирівняти структурований стовпець та Рознести стовпець масиву, який можна знайти під Обробляти структурований стовпець опція в ДОДАТИ ТРАНСФОРМУВАННЯ панель
Почнемо із застосування Рознести стовпець масиву перетворити в один зі стовпців наших імпортованих даних. Перед застосуванням перетворення ми можемо побачити стовпець topping
це масив об’єктів JSON з id
та type
ключі.
Після застосування перетворення ми можемо спостерігати нові рядки, додані в результаті. Кожен елемент у масиві тепер є новим рядком у результуючому DataFrame.
Тепер застосуємо Вирівняти структурований стовпець трансформувати на topping_flattened
колонка, яка була створена в результаті Рознести стовпець масиву перетворення, яке ми застосували на попередньому кроці.
Перш ніж застосувати перетворення, ми можемо побачити ключі id
та type
в topping_flattened
колонка.
Після застосування перетворення тепер ми можемо спостерігати за ключами id
та type
під topping_flattened
як нові стовпці topping_flattened_id
та topping_flattened_type
, які створюються в результаті перетворення. У вас також є можливість звести лише певні ключі, ввівши назви розділених комами ключів для Ключі для сплющення. Якщо залишити порожнім, усі ключі всередині рядка або структури JSON зведені.
Висновок
У цій публікації ми продемонстрували, як легко імпортувати формати файлів у ORC і JSON за допомогою Data Wrangler. Ми також застосували нещодавно запущені перетворення, які дозволяють трансформувати будь-які структуровані стовпці в даних JSON. Це робить роботу зі стовпцями, які містять рядки або масиви JSON, безперебійною.
Наступними кроками ми рекомендуємо відтворити продемонстровані приклади у власному візуальному інтерфейсі Data Wrangler. Якщо у вас виникли запитання щодо Data Wrangler, не соромтеся залишати їх у розділі коментарів.
Про авторів
Баладжі Туммала є інженером із розробки програмного забезпечення в Amazon SageMaker. Він допомагає підтримувати Amazon SageMaker Data Wrangler і захоплюється створенням продуктивного та масштабованого програмного забезпечення. Поза роботою захоплюється читанням художньої літератури та грою у волейбол.
Арунпрасат Шанкар є архітектором спеціалізованих рішень із штучного інтелекту та машинного навчання (AI / ML) з AWS, допомагаючи світовим клієнтам ефективно та ефективно масштабувати свої рішення в галузі ШІ в хмарі. У вільний час Арун із задоволенням дивиться науково-фантастичні фільми та слухає класичну музику.
- '
- 100
- МЕНЮ
- AI
- ВСІ
- Amazon
- Amazon SageMaker
- Apache
- застосування
- штучний
- штучний інтелект
- Штучний інтелект і машинне навчання
- AWS
- Створюємо
- хмара
- Колонка
- Клієнти
- дані
- угода
- розробка
- під час
- легко
- екосистема
- інженер
- Інженери
- досвід
- швидше
- Художня література
- формат
- знайдений
- Безкоштовна
- Глобальний
- Hadoop
- допомагає
- дуже
- Вулик
- Як
- How To
- HTTPS
- імпорт
- Інтелект
- IT
- JavaScript
- ключ
- ключі
- УЧИТЬСЯ
- вивчення
- Прослуховування
- навчання за допомогою машини
- ML
- кіно
- музика
- Імена
- варіант
- Опції
- Інше
- продуктивність
- попередній перегляд
- процес
- забезпечує
- читання
- рекомендувати
- запис
- огляд
- мудрець
- масштабовані
- шкала
- Вчені
- безшовні
- комплект
- аналогічний
- простий
- Софтвер
- розробка програмного забезпечення
- Рішення
- старт
- почалася
- зберігання
- зберігати
- підтримка
- Підтриманий
- Опори
- час
- Перетворення
- Перетворення
- us
- широко
- Work
- робочий
- лист