Inicie trabajos de procesamiento con unos pocos clics utilizando Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

Wrangler de datos de Amazon SageMaker hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de aprendizaje automático (ML) mediante el uso de una interfaz visual. Anteriormente, cuando creaba un flujo de datos de Data Wrangler, podía elegir diferentes opciones de exportación para integrar fácilmente ese flujo de datos en su proceso de procesamiento de datos. Data Wrangler ofrece opciones de exportación a Servicio de almacenamiento simple de Amazon (Amazon S3), Tuberías de SageMakery Tienda de funciones de SageMaker, o como código de Python. Las opciones de exportación crean un cuaderno Jupyter y requieren que ejecute el código para iniciar un trabajo de procesamiento facilitado por Procesamiento SageMaker.

Nos complace anunciar el lanzamiento general de los nodos de destino y la función Crear trabajo en Data Wrangler. Esta característica le brinda la capacidad de exportar todas las transformaciones que realizó en un conjunto de datos a un nodo de destino con solo unos pocos clics. Esto le permite crear trabajos de procesamiento de datos y exportarlos a Amazon S3 únicamente a través de la interfaz visual sin tener que generar, ejecutar o administrar cuadernos Jupyter, lo que mejora la experiencia de código bajo. Para demostrar esta nueva característica, usamos el Conjunto de datos del Titanic y muestre cómo exportar sus transformaciones a un nodo de destino.

Requisitos previos

Antes de que aprendamos a usar los nodos de destino con Data Wrangler, ya debería saber cómo acceder y comenzar con Data Wrangler. También necesita saber qué flujo de datos significa con contexto para Data Wrangler y cómo crear uno importando sus datos de las diferentes fuentes de datos compatibles con Data Wrangler.

Resumen de la solución

Considere el siguiente flujo de datos llamado example-titanic.flow:

Importa el conjunto de datos del Titanic tres veces. Puede ver estas diferentes importaciones como ramas separadas en el flujo de datos.
Para cada rama, aplica un conjunto de transformaciones y visualizaciones.
Une las ramas en un solo nodo con todas las transformaciones y visualizaciones.

Con este flujo, es posible que desee procesar y guardar partes de sus datos en una sucursal o ubicación específica.

En los siguientes pasos, demostramos cómo crear nodos de destino, exportarlos a Amazon S3 y crear e iniciar un trabajo de procesamiento.

Crear un nodo de destino

Puede usar el siguiente procedimiento para crear nodos de destino y exportarlos a un depósito S3:

Determine qué partes del archivo de flujo (transformaciones) desea guardar.
Elija el signo más junto a los nodos que representan las transformaciones que desea exportar. (Si es un nodo colapsado, debe seleccionar el ícono de opciones (tres puntos) para el nodo).
Pase el ratón sobre Añadir destino.
Elige Amazon S3.
Especifique los campos como se muestra en la siguiente captura de pantalla.
Para el segundo nodo de unión, siga los mismos pasos para agregar Amazon S3 como destino y especifique los campos.

Puede repetir estos pasos tantas veces como necesite para tantos nodos como desee en su flujo de datos. Más adelante, elige qué nodos de destino incluir en su trabajo de procesamiento.

Iniciar un trabajo de procesamiento

Use el siguiente procedimiento para crear un trabajo de procesamiento y elija el nodo de destino al que desea exportar:

En Flujo de datos pestaña, elegir Crear trabajo.
Nombre del trabajo¸ introduzca el nombre del trabajo de exportación.
Seleccione los nodos de destino que desea exportar.
Opcionalmente, especifique el Servicio de administración de claves de AWS (AWS KMS) ARN clave.

La clave KMS es una clave criptográfica que puede utilizar para proteger sus datos. Para obtener más información acerca de las claves KMS, consulte la Guía para desarrolladores clave de AWS.

Elige A continuación, 2. Configurar trabajo.
Opcionalmente, puede configurar el trabajo según sus necesidades cambiando el tipo de instancia o el conteo, o agregando cualquier etiqueta para asociar con el trabajo.
Elige Ejecutar para ejecutar el trabajo.

Aparece un mensaje de éxito cuando el trabajo se crea correctamente.

Ver los datos finales

Finalmente, puede usar los siguientes pasos para ver los datos exportados:

Después de crear el trabajo, elija el enlace proporcionado.

Se abre una nueva pestaña que muestra el trabajo de procesamiento en la consola de SageMaker.

Cuando el trabajo esté completo, revise los datos exportados en la consola de Amazon S3.

Debería ver una nueva carpeta con el nombre del trabajo que eligió.

Elija el nombre del trabajo para ver un archivo CSV (o varios archivos) con los datos finales.

Preguntas Frecuentes

En esta sección, respondemos algunas preguntas frecuentes sobre esta nueva característica:

¿Qué pasó con la pestaña Exportar? Con esta nueva función, eliminamos la Exportar pestaña de Data Wrangler. Todavía puede facilitar la funcionalidad de exportación a través de los cuadernos Jupyter de Data Wrangler generados desde cualquier nodo que haya creado en el flujo de datos con los siguientes pasos:

1. Elija el signo más junto al nodo que desea exportar.
2. Elige Exportar a.
3. Elige Amazon S3 (a través de Jupyter Notebook).
4. Ejecute el cuaderno Jupyter.

¿Cuántos nodos de destino puedo incluir en un trabajo? Hay un máximo de 10 destinos por trabajo de procesamiento.
¿Cuántos nodos de destino puedo tener en un archivo de flujo? Puede tener tantos nodos de destino como desee.
¿Puedo agregar transformaciones después de mis nodos de destino? No, la idea es que los nodos de destino son nodos terminales que no tienen más pasos posteriores.
¿Cuáles son las fuentes compatibles que puedo usar con los nodos de destino? En el momento de escribir este artículo, solo admitimos Amazon S3 como fuente de destino. En el futuro se agregará soporte para más tipos de fuentes de destino. Comuníquese si hay uno específico que le gustaría ver.

Resumen

En esta publicación, demostramos cómo usar los nodos de destino recientemente lanzados para crear trabajos de procesamiento y guardar sus conjuntos de datos transformados directamente en Amazon S3 a través de la interfaz visual de Data Wrangler. Con esta función adicional, hemos mejorado la experiencia de código bajo impulsada por herramientas de Data Wrangler.

Como próximos pasos, le recomendamos que pruebe el ejemplo que se muestra en esta publicación. Si tienes alguna duda o quieres saber más, consulta Exportar o dejar una pregunta en la sección de comentarios.

Acerca de los autores

Alfonso Austin Rivera es ingeniero front-end en Amazon SageMaker Data Wrangler. Le apasiona crear experiencias de usuario intuitivas que despierten alegría. En su tiempo libre, puedes encontrarlo luchando contra la gravedad en un gimnasio de escalada o afuera volando su dron.

Parsa Shahbodaghi es redactor técnico en AWS especializado en aprendizaje automático e inteligencia artificial. Escribe la documentación técnica para Amazon SageMaker Data Wrangler y Amazon SageMaker Feature Store. En su tiempo libre, disfruta meditar, escuchar audiolibros, levantar pesas y ver monólogos de comedia. Nunca será un comediante, pero al menos su mamá piensa que es divertido.

Balaji Tummala es ingeniero de desarrollo de software en Amazon SageMaker. Ayuda a dar soporte a Amazon SageMaker Data Wrangler y le apasiona crear software escalable y de alto rendimiento. Fuera del trabajo, le gusta leer ficción y jugar voleibol.

Arunprasath Shankar es un arquitecto de soluciones especializado en inteligencia artificial y aprendizaje automático (AI / ML) en AWS, que ayuda a los clientes globales a escalar sus soluciones de inteligencia artificial de manera efectiva y eficiente en la nube. En su tiempo libre, a Arun le gusta ver películas de ciencia ficción y escuchar música clásica.