EMR de Amazon es un servicio de big data ofrecido por AWS para ejecutar Apache Spark y otras aplicaciones de código abierto en AWS para crear canalizaciones de datos escalables de manera rentable. El monitoreo de los registros generados a partir de los trabajos implementados en los clústeres de EMR es esencial para ayudar a detectar problemas críticos en tiempo real e identificar las causas raíz rápidamente.
Empujando esos registros en Reloj en la nube de Amazon le permite centralizar e impulsar inteligencia procesable de sus registros para abordar problemas operativos sin necesidad de aprovisionar servidores o administrar software. Puede comenzar a escribir consultas instantáneamente con agregaciones, filtros y expresiones regulares. Además, puede visualizar datos de series temporales, profundizar en eventos de registro individuales y exportar resultados de consultas a paneles de CloudWatch.
Para ingerir registros que se conservan en el Nube informática elástica de Amazon (Amazon EC2) de un clúster de EMR en CloudWatch, puede usar el Agente de CloudWatch. Esto proporciona una forma sencilla de enviar registros desde una instancia EC2 a CloudWatch.
El agente de CloudWatch es un paquete de software que se ejecuta de forma autónoma y continua en sus servidores. Puede instalar y configurar el agente de CloudWatch para recopilar registros de aplicaciones y sistemas de instancias EC2, hosts locales y aplicaciones en contenedores. CloudWatch procesa y almacena los registros recopilados por el agente de CloudWatch, lo que ayuda aún más con el rendimiento y la supervisión del estado de su infraestructura y aplicaciones.
En esta publicación, creamos un clúster de EMR y centralizamos los registros de pasos de EMR de los trabajos en CloudWatch. Esto le facilitará la administración de su clúster de EMR, la resolución de problemas y la supervisión del rendimiento. Esta solución es especialmente útil si desea utilizar CloudWatch para recopilar y visualizar registros, métricas y datos de eventos en tiempo real, lo que agiliza el mantenimiento de su infraestructura y aplicaciones.
Resumen de la solución
La solución que se presenta en esta publicación se basa en una configuración específica en la que el nivel de concurrencia de pasos de EMR se establece en 1. Esto significa que solo se ejecuta un paso a la vez en el clúster. Es importante tener en cuenta que si el nivel de simultaneidad de pasos de EMR se establece en un valor superior a 1, es posible que la solución no funcione como se esperaba. Recomendamos enfáticamente verificar su Simultaneidad de pasos de EMR configuración antes de implementar la solución presentada en esta publicación.
El siguiente diagrama ilustra la arquitectura de la solución.
El flujo de trabajo incluye los siguientes pasos:
- Los usuarios inician un trabajo de EMR de Apache Spark y crean un paso en el clúster de EMR. Con Apache Spark, la carga de trabajo se distribuye entre los diferentes nodos del clúster de EMR.
- En cada nodo (instancia EC2) del clúster, un agente de CloudWatch observa diferentes directorios de registros, captura nuevas entradas en los archivos de registro y las envía a CloudWatch.
- Los usuarios pueden ver los registros de pasos accediendo a los diferentes grupos de registros desde la consola de CloudWatch. Los registros de pasos escritos por Amazon EMR son los siguientes:
- controlador — Información sobre la tramitación del trámite. Si su paso falla durante la carga, puede encontrar el seguimiento de la pila en este registro.
- stderr — El canal de error estándar de Spark mientras procesa el paso.
- stdout — El canal de salida estándar de Spark mientras procesa el paso.
Proporcionamos un Formación en la nube de AWS plantilla en esta publicación como una guía general. La plantilla demuestra cómo configurar un agente de CloudWatch en Amazon EMR para enviar registros de Spark a CloudWatch. Puede revisarlo y personalizarlo según sea necesario para incluir sus configuraciones de seguridad de Amazon EMR. Como práctica recomendada, recomendamos incluir sus configuraciones de seguridad de Amazon EMR en la plantilla para cifrar datos en tránsito.
También debe tener en cuenta que algunos de los recursos implementados por esta pila incurren en costos cuando permanecen en uso.
En las siguientes secciones, vamos a través de los siguientes pasos:
- Cree y cargue el script de arranque en un Servicio de almacenamiento simple de Amazon (Amazon S3) cubo.
- Utilice la plantilla de CloudFormation para crear los siguientes recursos:
- Supervise los registros de Spark en la consola de CloudWatch.
Requisitos previos
Esta publicación asume que tienes lo siguiente:
Cree y cargue el script de arranque en un depósito S3
Para más información, consulte la Cargando objetos y Instalación y ejecución del agente de CloudWatch en sus servidores.
Para crear y cargar el script de arranque, complete los siguientes pasos:
- Cree un archivo local llamado
bootstrap_cloudwatch_agent.sh
con el siguiente contenido: - En la consola de Amazon S3, elija su depósito S3.
- En Objetos pestaña, elegir Subir.
- Elige Añadir archivos, luego elija el script de arranque.
- Elige Subir, luego elija el nombre del archivo:
bootstrap_cloudwatch_agent.sh
. - Elige Copiar URI de S3. Utilizaremos este valor en un paso posterior.
Aprovisione recursos con la plantilla de CloudFormation
Elige Pila de lanzamiento para lanzar una pila de CloudFormation en su cuenta e implementar la plantilla:
Esta plantilla crea un rol de IAM, un perfil de instancia de IAM, un parámetro de administrador de sistemas y un clúster de EMR. El clúster inicia el Aplicación de ejemplo de estimación Spark PI. Se le facturarán los recursos de AWS utilizados si crea una pila a partir de esta plantilla.
El asistente de CloudFormation le pedirá que modifique o proporcione estos parámetros:
- Tipo de instancia - El tipo de instancia para todos los grupos de instancias. El valor predeterminado es m4.xlarge.
- InstanciaCountCore – El número de instancias en el grupo de instancias principal. El valor predeterminado es 2.
- EMRRReleaseLabel - El Etiqueta de lanzamiento de Amazon EMR quieres usar. El valor predeterminado es emr-6.9.0.
- BootstrapScriptRuta – La ruta de S3 de la secuencia de comandos de arranque de la instalación del agente de CloudWatch que copió anteriormente.
- Subred – La subred de EC2 donde se inicia el clúster. Debe proporcionar este parámetro.
- Nombre del par de claves EC2 – Un par de claves EC2 opcional para conectarse a nodos de clúster, como alternativa a Session Manager.
Supervisar los flujos de registro
Después de que la pila de CloudFormation se implemente correctamente, en la consola de CloudWatch, elija Grupos de registros en el panel de navegación. Luego filtre los grupos de registro por el prefijo /aws/emr/master
.
El ID del grupo de registro corresponde al ID de la instancia EC2 del nodo principal de EMR. Si tiene varios clústeres de EMR, puede usar este ID para identificar un clúster de EMR en particular, según el ID del nodo principal.
En el grupo de registro, encontrará los tres flujos de registro diferentes.
Los flujos de registro contienen la siguiente información:
- paso a paso – El canal de salida estándar de Spark mientras procesa el paso.
- paso a paso – El canal de error estándar de Spark mientras procesa el paso.
- controlador de paso – Información sobre la tramitación del trámite. Si su paso falla durante la carga, puede encontrar el seguimiento de la pila en este registro.
Limpiar
Para evitar futuros cargos en su cuenta, elimine los recursos que creó en este tutorial. El clúster de EMR incurrirá en cargos siempre que esté activo, así que deténgalo cuando haya terminado.
- En la consola de CloudFormation, en el panel de navegación, elija Stacks.
- Elija la pila que lanzó (
EMR-CloudWatch-Demo
), entonces escoge Borrar. - Vaciar el cubo S3 tu creaste
- Eliminar el cubo S3 tu creaste
Conclusión
Ahora que completó los pasos de este tutorial, tiene el agente de CloudWatch ejecutándose en los hosts de su clúster y configurado para enviar registros de pasos de EMR a CloudWatch. Con esta característica, puede monitorear de manera efectiva el estado y el rendimiento de sus trabajos de Spark que se ejecutan en Amazon EMR, detectando problemas críticos en tiempo real e identificando las causas raíz rápidamente.
Puede empaquetar e implementar esta solución a través de una plantilla de CloudFormation como esta plantilla de ejemplo, que crea la función de perfil de instancia de IAM, el parámetro Administrador de sistemas y el clúster de EMR.
Para llevar esto más lejos, considere usar estos registros en las alarmas de CloudWatch para alertas en un filtro de métrica de grupo de registro. Puede recopilarlos con otras alarmas en un alarma compuesta o configurar acciones de alarma como el envío Servicio de notificación simple de Amazon (Amazon SNS) notificaciones para desencadenar procesos basados en eventos como AWS Lambda funciones.
Sobre la autora
Ennio Pastore es arquitecto de datos sénior en el equipo de laboratorio de datos de AWS. Es un entusiasta de todo lo relacionado con las nuevas tecnologías que tienen un impacto positivo en los negocios y el sustento en general. Ennio tiene más de 10 años de experiencia en análisis de datos. Ayuda a las empresas a definir e implementar plataformas de datos en todas las industrias, como telecomunicaciones, banca, juegos, comercio minorista y seguros.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/big-data/push-amazon-emr-step-logs-from-amazon-ec2-instances-to-amazon-cloudwatch-logs/
- :es
- 1
- 10
- 100
- 9
- a
- Nuestra Empresa
- el acceso
- Mi Cuenta
- a través de
- acciones
- lector activo
- adición
- dirección
- Agente
- alarma
- alertas
- Todos
- alternativa
- Amazon
- Amazon EC2
- EMR de Amazon
- Analytics
- y
- APACHE
- Apache Spark
- Aplicación
- aplicaciones
- arquitectura
- somos
- AS
- At
- autónomamente
- AWS
- Bancario
- basado
- BE
- antes
- comenzar
- MEJOR
- Big
- Big Data
- Bootstrap
- build
- negocios
- by
- PUEDEN
- Capturando
- causas
- Channel
- cargos
- Elige
- Médico
- recoger
- Empresas
- completar
- Completado
- Calcular
- Configuración
- Conectándote
- Considerar
- Consola
- contenido
- continuamente
- Core
- corresponde
- rentable
- Precio
- podría
- Para crear
- creado
- crea
- Creamos
- crítico
- personalizan
- datos
- Data Analytics
- Predeterminado
- demuestra
- desplegar
- desplegado
- despliega
- una experiencia diferente
- directorios
- distribuidos
- DE INSCRIPCIÓN
- el lado de la transmisión
- cada una
- Más temprano
- más fácil
- echo
- de manera eficaz
- permite
- entusiasta
- error
- esencial
- Éter (ETH)
- Evento
- Eventos
- todo
- ejemplo
- esperado
- experience
- exportar
- expresiones
- falla
- Feature
- Archive
- archivos
- filtrar
- filtros
- Encuentre
- siguiendo
- siguiente
- Desde
- funciones
- promover
- futuras
- juego de azar
- General
- generado
- Go
- mayor
- Grupo procesos
- Grupo
- guía
- Tienen
- Salud
- ayuda
- serviciales
- ayuda
- altamente
- anfitriones
- Cómo
- Como Hacer
- HTML
- http
- HTTPS
- AMI
- ID
- Identifique
- identificar
- Impacto
- implementar
- implementación
- importante
- in
- incluir
- incluye
- Incluye
- INSTRUMENTO individual
- industrias
- información
- EN LA MINA
- instalar
- instalando
- ejemplo
- aseguradora
- Intelligence
- cuestiones
- IT
- Trabajos
- Empleo
- jpg
- json
- el lab
- lanzamiento
- lanzado
- pone en marcha
- Nivel
- como
- carga
- local
- Largo
- un mejor mantenimiento.
- para lograr
- gestionan
- gerente
- manera
- significa
- Métrica
- modificar
- Monitorear
- monitoreo
- más,
- múltiples
- nombre
- Llamado
- Navegación
- necesidad
- Nuevo
- Nuevas tecnologías
- Next
- nodo
- nodos
- .
- notificaciones
- número
- of
- Ofrecido
- on
- ONE
- de código abierto
- operativos.
- Otro
- salida
- paquete
- cristal
- parámetro
- parámetros
- particular
- particularmente
- camino
- actuación
- Plataformas
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- positivo
- Publicación
- presentó
- primario
- en costes
- tratamiento
- Mi Perfil
- proporcionar
- proporciona un
- provisión
- Push
- Emprendedor
- con rapidez
- real
- en tiempo real
- recomiendan
- regular
- relacionado
- ,
- permanecer
- Recursos
- Resultados
- el comercio minorista
- una estrategia SEO para aparecer en las búsquedas de Google.
- Función
- raíz
- Ejecutar
- correr
- escalable
- (secciones)
- EN LINEA
- enviando
- mayor
- Serie
- de coches
- Sesión
- set
- tienes
- sencillos
- So
- Software
- a medida
- algo
- Spark
- soluciones y
- montón
- estándar
- comienzo
- Comience a
- comienza
- paso
- pasos
- Detener
- STORAGE
- tiendas
- racionalización
- corrientes
- subred
- Con éxito
- tal
- Sudo
- te
- Todas las funciones a su disposición
- ¡Prepárate!
- equipo
- Tecnologías
- telecomunicaciones
- plantilla
- esa
- La
- Les
- Estas
- Tres
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- Series de tiempo
- a
- rastrear
- detonante
- utilizan el
- propuesta de
- verificando
- Ver
- tutorial
- relojes
- Camino..
- que
- mientras
- seguirá
- sin
- Actividades:
- flujo de trabajo
- la escritura
- escrito
- yaml
- años
- tú
- zephyrnet