Підготуйте та проаналізуйте дані JSON і ORC за допомогою Amazon SageMaker Data Wrangler

Вихідний вузол: 1600106

Amazon SageMaker Data Wrangler це нова можливість Amazon SageMaker що дозволяє науковцям та інженерам швидше готувати дані для програм машинного навчання (ML) через візуальний інтерфейс. Підготовка даних є вирішальним етапом життєвого циклу ML, і Data Wrangler надає комплексне рішення для імпорту, підготовки, трансформації, представлення та аналізу даних для ML у бездоганній, візуальній інтерфейсі з низьким кодом. Це дозволяє легко та швидко підключатися до таких компонентів AWS, як Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна та Формування озера AWS, а також зовнішні джерела, такі як Snowflake. Data Wrangler також підтримує стандартні типи даних, такі як CSV і Parquet.

Data Wrangler тепер додатково підтримує Optimized Row Columnar (ОРК), формати файлів JavaScript Object Notation (JSON) і JSON Lines (JSONL):

  • ОРК – Формат файлу ORC забезпечує високоефективний спосіб зберігання даних Hive. Його розроблено, щоб подолати обмеження інших форматів файлів Hive. Використання файлів ORC покращує продуктивність, коли Hive читає, записує та обробляє дані. ORC широко використовується в екосистемі Hadoop.
  • JSON – Формат файлу JSON є легким, широко використовуваним форматом обміну даними.
  • JSONL – Рядки JSON, які також називають JSON із роздільниками нового рядка, є зручним форматом для зберігання структурованих даних, які можуть оброблятися по одному запису за раз.

Ви можете попередньо переглянути дані ORC, JSON і JSONL перед імпортом наборів даних у Data Wrangler. Після імпорту даних ви також можете використовувати один із нещодавно запущених трансформаторів для роботи зі стовпцями, які містять рядки JSON або масиви, які зазвичай зустрічаються у вкладених JSON.

Імпортуйте та аналізуйте дані ORC за допомогою Data Wrangler

Імпорт даних ORC у Data Wrangler простий і подібний до імпорту файлів у будь-яких інших підтримуваних форматах. Знайдіть свій файл ORC в Amazon S3 і в ПОДРОБИЦІ виберіть ORC як тип файлу під час імпорту.

Якщо ви новачок у Data Wrangler, перегляньте Почніть роботу з Data Wrangler. Також див Імпортувати щоб дізнатися про різні варіанти імпорту.

Імпортуйте та аналізуйте дані JSON за допомогою Data Wrangler

Тепер давайте імпортувати файли у форматі JSON за допомогою Data Wrangler і працювати зі стовпцями, які містять рядки або масиви JSON. Ми також демонструємо, як працювати з вкладеними файлами JSON. За допомогою Data Wrangler імпорт файлів JSON з Amazon S3 є безперебійним процесом. Це подібно до імпортування файлів у будь-яких інших підтримуваних форматах. Після імпорту файлів ви можете попередньо переглянути файли JSON, як показано на наступному знімку екрана. Переконайтеся, що вказано тип файлу JSON у ПОДРОБИЦІ панель

Далі попрацюємо зі структурованими стовпцями в імпортованому файлі JSON.

Щоб працювати зі структурованими стовпцями у файлах JSON, Data Wrangler представляє два нових перетворення: Вирівняти структурований стовпець та Рознести стовпець масиву, який можна знайти під Обробляти структурований стовпець опція в ДОДАТИ ТРАНСФОРМУВАННЯ панель

Почнемо із застосування Рознести стовпець масиву перетворити в один зі стовпців наших імпортованих даних. Перед застосуванням перетворення ми можемо побачити стовпець topping це масив об’єктів JSON з id та type ключі.

Після застосування перетворення ми можемо спостерігати нові рядки, додані в результаті. Кожен елемент у масиві тепер є новим рядком у результуючому DataFrame.

Тепер застосуємо Вирівняти структурований стовпець трансформувати на topping_flattened колонка, яка була створена в результаті Рознести стовпець масиву перетворення, яке ми застосували на попередньому кроці.

Перш ніж застосувати перетворення, ми можемо побачити ключі id та type в topping_flattened колонка.

Після застосування перетворення тепер ми можемо спостерігати за ключами id та type під topping_flattened як нові стовпці topping_flattened_id та topping_flattened_type, які створюються в результаті перетворення. У вас також є можливість звести лише певні ключі, ввівши назви розділених комами ключів для Ключі для сплющення. Якщо залишити порожнім, усі ключі всередині рядка або структури JSON зведені.

Висновок

У цій публікації ми продемонстрували, як легко імпортувати формати файлів у ORC і JSON за допомогою Data Wrangler. Ми також застосували нещодавно запущені перетворення, які дозволяють трансформувати будь-які структуровані стовпці в даних JSON. Це робить роботу зі стовпцями, які містять рядки або масиви JSON, безперебійною.

Наступними кроками ми рекомендуємо відтворити продемонстровані приклади у власному візуальному інтерфейсі Data Wrangler. Якщо у вас виникли запитання щодо Data Wrangler, не соромтеся залишати їх у розділі коментарів.


Про авторів

Баладжі Туммала є інженером із розробки програмного забезпечення в Amazon SageMaker. Він допомагає підтримувати Amazon SageMaker Data Wrangler і захоплюється створенням продуктивного та масштабованого програмного забезпечення. Поза роботою захоплюється читанням художньої літератури та грою у волейбол.

Арунпрасат Шанкар є архітектором спеціалізованих рішень із штучного інтелекту та машинного навчання (AI / ML) з AWS, допомагаючи світовим клієнтам ефективно та ефективно масштабувати свої рішення в галузі ШІ в хмарі. У вільний час Арун із задоволенням дивиться науково-фантастичні фільми та слухає класичну музику.

Джерело: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Часова мітка:

Більше від Блог машинного навчання AWS