Prepare y analice datos JSON y ORC con Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

Wrangler de datos de Amazon SageMaker es una nueva capacidad de Amazon SageMaker eso hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de aprendizaje automático (ML) a través de una interfaz visual. La preparación de datos es un paso crucial del ciclo de vida de ML, y Data Wrangler proporciona una solución integral para importar, preparar, transformar, caracterizar y analizar datos para ML en una experiencia fluida, visual y de bajo código. Le permite conectarse fácil y rápidamente a componentes de AWS como Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazony Formación del lago AWSy fuentes externas como Snowflake. Data Wrangler también admite tipos de datos estándar como CSV y Parquet.

Data Wrangler ahora también es compatible con Optimized Row Columnar (ORC), notación de objetos de JavaScript (JSON) y formatos de archivo de líneas JSON (JSONL):

ORC – El formato de archivo ORC proporciona una forma muy eficiente de almacenar datos de Hive. Fue diseñado para superar las limitaciones de los otros formatos de archivo de Hive. El uso de archivos ORC mejora el rendimiento cuando Hive lee, escribe y procesa datos. ORC es ampliamente utilizado en el ecosistema Hadoop.
JSON – El formato de archivo JSON es un formato de intercambio de datos ligero y de uso común.
JSONL – JSON Lines, también llamado JSON delimitado por saltos de línea, es un formato conveniente para almacenar datos estructurados que pueden procesarse un registro a la vez.

Puede obtener una vista previa de los datos ORC, JSON y JSONL antes de importar los conjuntos de datos a Data Wrangler. Después de importar los datos, también puede usar uno de los transformadores recientemente lanzados para trabajar con columnas que contienen cadenas JSON o matrices que se encuentran comúnmente en JSON anidados.

Importe y analice datos ORC con Data Wrangler

La importación de datos ORC en Data Wrangler es fácil y similar a la importación de archivos en cualquier otro formato compatible. Busque su archivo ORC en Amazon S3 y en el DETALLES panel, seleccione ORC como tipo de archivo durante la importación.

Si es nuevo en Data Wrangler, revise Comience con Data Wrangler. Ver también Importa para conocer las diversas opciones de importación.

Importe y analice datos JSON con Data Wrangler

Ahora importemos archivos en formato JSON con Data Wrangler y trabajemos con columnas que contienen cadenas o matrices JSON. También demostramos cómo lidiar con JSON anidados. Con Data Wrangler, la importación de archivos JSON desde Amazon S3 es un proceso fluido. Esto es similar a importar archivos en cualquier otro formato compatible. Después de importar los archivos, puede obtener una vista previa de los archivos JSON como se muestra en la siguiente captura de pantalla. Asegúrese de establecer el tipo de archivo en JSON en el DETALLES cristal.

A continuación, trabajemos en columnas estructuradas en el archivo JSON importado.

Para manejar columnas estructuradas en archivos JSON, Data Wrangler presenta dos nuevas transformaciones: Aplanar columna estructurada y Explotar columna de matriz, que se encuentra bajo el Manejar columna estructurada opción en el AÑADIR TRANSFORMAR cristal.

Comencemos aplicando el Explotar columna de matriz transformar a una de las columnas en nuestros datos importados. Antes de aplicar la transformación, podemos ver la columna topping es una matriz de objetos JSON con id y type llaves.

Después de aplicar la transformación, podemos observar las nuevas filas agregadas como resultado. Cada elemento de la matriz es ahora una nueva fila en el DataFrame resultante.

Ahora vamos a aplicar el Aplanar columna estructurada transformar en el topping_flattened columna que se creó como resultado de la Explotar columna de matriz transformación que aplicamos en el paso anterior.

Antes de aplicar la transformación, podemos ver las claves. id y type existentes topping_flattened columna.

Después de aplicar la transformación, ahora podemos observar las claves. id y type bajo el topping_flattened columna como nuevas columnas topping_flattened_id y topping_flattened_type, que se crean como resultado de la transformación. También tiene la opción de aplanar solo claves específicas ingresando los nombres de clave separados por comas para Teclas para aplanar. Si se deja vacío, todas las claves dentro de la cadena o estructura JSON se aplanan.

Conclusión

En esta publicación, demostramos cómo importar formatos de archivo en ORC y JSON fácilmente con Data Wrangler. También aplicamos las transformaciones recién lanzadas que nos permiten transformar cualquier columna estructurada en datos JSON. Esto hace que trabajar con columnas que contienen matrices o cadenas JSON sea una experiencia perfecta.

Como próximos pasos, le recomendamos que replique los ejemplos demostrados en su propia interfaz visual de Data Wrangler. Si tiene alguna pregunta relacionada con Data Wrangler, no dude en dejarla en la sección de comentarios.

Acerca de los autores

Balaji Tummala es ingeniero de desarrollo de software en Amazon SageMaker. Ayuda a dar soporte a Amazon SageMaker Data Wrangler y le apasiona crear software escalable y de alto rendimiento. Fuera del trabajo, le gusta leer ficción y jugar voleibol.

Arunprasath Shankar es un arquitecto de soluciones especializado en inteligencia artificial y aprendizaje automático (AI / ML) en AWS, que ayuda a los clientes globales a escalar sus soluciones de inteligencia artificial de manera efectiva y eficiente en la nube. En su tiempo libre, a Arun le gusta ver películas de ciencia ficción y escuchar música clásica.