Подготовка и анализ данных JSON и ORC с помощью Amazon SageMaker Data Wrangler

Исходный узел: 1600106

Обработчик данных Amazon SageMaker это новая возможность Создатель мудреца Амазонки Это позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения (ML) через визуальный интерфейс. Подготовка данных — важнейший этап жизненного цикла машинного обучения, и Data Wrangler предоставляет комплексное решение для импорта, подготовки, преобразования, придания характеристик и анализа данных для машинного обучения с помощью удобного визуального интерфейса с минимальным кодом. Он позволяет легко и быстро подключаться к таким компонентам AWS, как Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshiftи Формирование озера AWSи внешние источники, такие как Snowflake. Data Wrangler также поддерживает стандартные типы данных, такие как CSV и Parquet.

Data Wrangler теперь дополнительно поддерживает столбцы оптимизированных строк (ORC), форматы файлов JavaScript Object Notation (JSON) и JSON Lines (JSONL):

  • ORC – Формат файла ORC обеспечивает высокоэффективный способ хранения данных Hive. Он был разработан для преодоления ограничений других форматов файлов Hive. Использование файлов ORC повышает производительность при чтении, записи и обработке данных Hive. ORC широко используется в экосистеме Hadoop.
  • JSON – Формат файла JSON — это упрощенный, широко используемый формат обмена данными.
  • JSONL – Строки JSON, также называемые JSON с разделителями строк, представляют собой удобный формат для хранения структурированных данных, которые могут обрабатываться по одной записи за раз.

Вы можете просмотреть данные ORC, JSON и JSONL перед импортом наборов данных в Data Wrangler. После импорта данных вы также можете использовать один из недавно запущенных преобразователей для работы со столбцами, содержащими строки или массивы JSON, которые обычно встречаются во вложенных JSON.

Импорт и анализ данных ORC с помощью Data Wrangler

Импорт данных ORC в Data Wrangler прост и аналогичен импорту файлов в любых других поддерживаемых форматах. Найдите свой файл ORC в Amazon S3 и в ПОДРОБНЕЕ выберите ORC в качестве типа файла во время импорта.

Если вы новичок в Data Wrangler, ознакомьтесь с Начать работу с Data Wrangler, Также см Импортировать чтобы узнать о различных вариантах импорта.

Импорт и анализ данных JSON с помощью Data Wrangler

Теперь давайте импортируем файлы в формате JSON с помощью Data Wrangler и будем работать со столбцами, содержащими строки или массивы JSON. Мы также покажем, как работать с вложенными JSON. Благодаря Data Wrangler импорт файлов JSON из Amazon S3 становится беспрепятственным процессом. Это похоже на импорт файлов в любых других поддерживаемых форматах. После импорта файлов вы можете просмотреть файлы JSON, как показано на следующем снимке экрана. Обязательно установите тип файла JSON в ПОДРОБНЕЕ панель.

Далее давайте поработаем со структурированными столбцами в импортированном файле JSON.

Для работы со структурированными столбцами в файлах JSON Data Wrangler представляет два новых преобразования: Свести структурированный столбец и Развернуть столбец массива, который можно найти под Обработка структурированного столбца вариант в ДОБАВИТЬ ПРЕОБРАЗОВАНИЕ панель.

Начнем с применения Развернуть столбец массива преобразовать в один из столбцов в наших импортированных данных. Перед применением преобразования мы можем увидеть столбец topping представляет собой массив объектов JSON с id и type ключи.

После того, как мы применим преобразование, мы можем наблюдать, как в результате добавляются новые строки. Каждый элемент в массиве теперь является новой строкой в ​​результирующем DataFrame.

Теперь применим Свести структурированный столбец трансформироваться на topping_flattened столбец, созданный в результате Развернуть столбец массива преобразование, которое мы применили на предыдущем шаге.

Перед применением преобразования мы можем увидеть ключи id и type в topping_flattened колонка.

После применения преобразования мы теперь можем наблюдать ключи id и type под topping_flattened столбец как новые столбцы topping_flattened_id и topping_flattened_type, которые создаются в результате преобразования. У вас также есть возможность свести только определенные клавиши, введя имена клавиш, разделенные запятыми, для Клавиши для выравнивания. Если оставить пустым, все ключи внутри строки или структуры JSON будут сведены.

Заключение

В этом посте мы продемонстрировали, как легко импортировать форматы файлов в ORC и JSON с помощью Data Wrangler. Мы также применили недавно запущенные преобразования, которые позволяют нам преобразовывать любые структурированные столбцы в данные JSON. Это упрощает работу со столбцами, содержащими строки или массивы JSON.

В качестве следующих шагов мы рекомендуем вам воспроизвести продемонстрированные примеры в вашем собственном визуальном интерфейсе Data Wrangler. Если у вас есть какие-либо вопросы, связанные с Data Wrangler, не стесняйтесь оставлять их в разделе комментариев.


Об авторах

Баладжи Туммала работает инженером-разработчиком программного обеспечения в Amazon SageMaker. Он помогает поддерживать Amazon SageMaker Data Wrangler и увлечен созданием производительного и масштабируемого программного обеспечения. Вне работы он любит читать художественную литературу и играть в волейбол.

Арунпрасат Шанкар является специалистом по архитектуре решений в области искусственного интеллекта и машинного обучения (AI / ML) в AWS, помогая клиентам во всем мире эффективно масштабировать свои решения AI в облаке. В свободное время Арун любит смотреть научно-фантастические фильмы и слушать классическую музыку.

Источник: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

Отметка времени:

Больше от Блог машинного обучения AWS