Reduzca los costos del clúster de Amazon EMR hasta en un 19 % con nuevas mejoras en Amazon EMR Managed Scaling

Reduzca los costos del clúster de Amazon EMR hasta en un 19 % con nuevas mejoras en Amazon EMR Managed Scaling

Nodo de origen: 1985302

En junio de 2020, AWS anunció la disponibilidad general de Escalamiento administrado de Amazon EMR. Con EMR Managed Scaling, usted especifica los límites de cómputo mínimo y máximo para sus clústeres, y Amazon EMR cambia automáticamente el tamaño de su clúster para lograr un rendimiento y una utilización de recursos óptimos. EMR Managed Scaling monitorea constantemente las métricas clave relacionadas con la carga de trabajo y usa un algoritmo que optimiza el tamaño del clúster para una mejor utilización de los recursos. Dado que la función está completamente administrada, las mejoras en el algoritmo se realizan de inmediato sin necesidad de actualizar la versión. Amazon EMR puede escalar el clúster hacia arriba durante los picos y reducirlo con elegancia durante los períodos de inactividad, lo que reduce sus costos y optimiza la capacidad del clúster para obtener el mejor rendimiento.

A lo largo de 2022, realizamos múltiples mejoras en el algoritmo EMR Managed Scaling. Con estas mejoras, observamos que para los clústeres habilitados con EMR Managed Scaling, la utilización mejoró hasta en un 15 % y los costos totales se redujeron aún más hasta en un 19 %. A partir de mediados de diciembre de 2022, las mejoras de Managed Scaling de EMR se habilitaron de forma predeterminada para los clústeres que utilizan las versiones 5.34.0 y posteriores de Amazon EMR y las versiones 6.4.0 y posteriores de Amazon EMR para clústeres nuevos y existentes. Además, dado que la función está completamente administrada, obtendrá el nuevo algoritmo de escalamiento administrado optimizado de forma predeterminada, y no es necesario que realice ninguna acción.

A continuación se enumeran algunas de las mejoras clave que habilitamos para EMR Managed Scaling:

  • Utilización mejorada del clúster con reducción dirigida de su clúster de EMR
  • Costos reducidos al evitar la reducción de instancias que almacenan datos aleatorios intermedios utilizando Conocimiento de datos de Spark Shuffle
  • Mejore la utilización del clúster y reduzca los costos con la ampliación gradual de su clúster EMR

Casos de clientes satisfechos

Cómo el algoritmo EMR Managed Scaling mejorado ayudó a una empresa de tecnología a reducir costos:

Para ilustrar el ahorro de costos con ejemplos, observamos un clúster de EMR para una empresa de tecnología, que usa mucho Amazon EMR para procesar datos de facturación en tiempo real entre Kafka y S3 usando Spark. Ejecutan un clúster de EMR persistente con la versión 5.35 de EMR y tienen activado el escalado administrado de EMR. El siguiente panel de control de Amazon CloudWatch muestra cómo, a partir del 21 de diciembre, el algoritmo mejorado de Managed Scaling aprovisionó (nodos totales solicitados) solo 70 nodos en comparación con el algoritmo de escalado administrado anterior que aprovisionaba 179 nodos para un perfil de trabajo similar. Cuanto menor sea la cantidad de recursos aprovisionados para ejecutar sus trabajos, menor será el costo total de su clúster de EMR.

Cómo el algoritmo EMR Managed Scaling mejorado ayudó a una empresa de publicidad a reducir costos:

También analizamos un clúster de EMR para una empresa de publicidad, que aprovecha Amazon EMR para su estrategia de análisis de datos y ejecuta sus trabajos de ETL por lotes con Spark. Ejecutan sus clústeres en EMR versión 6.5 y tienen EMR Managed Scaling activado. El siguiente panel de control de Amazon CloudWatch muestra cómo, a partir del 15 de diciembre, el algoritmo mejorado de Managed Scaling aprovisionó (unidades totales solicitadas) solo 41 nodos en comparación con el algoritmo de escalamiento administrado anterior que aprovisionaba 86 nodos para un perfil de trabajo similar.

Estimación de los ahorros de costos y las mejoras de utilización para sus clústeres de EMR:

Ahorro de costes de clúster:

Para ver los ahorros de costos estimados para su clúster de EMR con las mejoras de EMR Managed Scaling, siga los pasos a continuación:

  • Abra la Consola de métricas de CloudWatch Y debajo EMR, busca por tu ClusterId.
  • De la lista de métricas disponibles para EMR, seleccione las dos métricas siguientes:
    • Capacidad de funcionamiento – Según el tipo de unidad que especificó en su política de Managed Scaling, estará disponible como “Total de unidades en ejecución"O"TotalNodosEn Ejecución"O"TotalVCPURen ejecución"
    • Capacidad solicitada por Managed Scaling – Según el tipo de unidad que especificó en su política de Managed Scaling, estará disponible como “Total de unidades solicitadas"O"TotalNodosRequeridos"O"TotalVCPUrequerido"
  •  Trace ambas métricas en su panel de CloudWatch.
  • Seleccione el período de tiempo de 3 meses entre noviembre de 2022 y enero de 2023 para ver las mejoras con el algoritmo de escalado administrado mejorado en comparación con el algoritmo de escalado administrado anterior.

Mejoras en la utilización del clúster:

Para estimar las mejoras en la utilización de su clúster de EMR con las mejoras de EMR Managed Scaling, siga los pasos a continuación:

  • Abra la consola de métricas de CloudWatch y, en EMR, busca por tu ClusterId.
  • De la lista de métricas disponibles para EMR, seleccione el "Porcentaje de memoria disponible de hilo” métrico.
  • Para derivar la memoria utilizada por YARN, agregue una expresión matemática como "Agregar matemáticas → Comenzar con expresión vacía"
    • Para la nueva expresión matemática, establezca Etiqueta = Utilización de hilo y establecer Detalles=100-YARNMemoryAvailablePercentage.
  • Trace la métrica de utilización del clúster en su panel de CloudWatch.
  • Seleccione el período de tiempo de 3 meses entre noviembre de 2022 y enero de 2023 para ver las mejoras con el algoritmo de escalado administrado mejorado en comparación con el algoritmo de escalado administrado anterior.

Que sigue

Continuaremos ajustando el algoritmo de Managed Scaling con cada nueva versión de EMR y, por lo tanto, mejoraremos la experiencia del cliente al escalar clústeres con EMR Managed Scaling.

Conclusión

En esta publicación, brindamos una descripción general de la mejora clave que lanzamos en EMR Managed Scaling. Con estas mejoras, observamos que la utilización del clúster mejoró hasta en un 15 % y el costo del clúster se redujo hasta en un 19 %. A partir de mediados de diciembre de 2022, estas mejoras se habilitaron de forma predeterminada para los clústeres de EMR que utilizan las versiones 5.34.0 y posteriores de Amazon EMR, y las versiones 6.4.0 y posteriores de Amazon EMR. Dado que EMR Managed Scaling es una función completamente administrada, obtendrá el nuevo algoritmo de EMR Managed Scaling optimizado de forma predeterminada y no es necesario que realice ninguna acción.

Para obtener más información y comenzar con EMR Managed Scaling, visite el Página de documentación de EMR Managed Scaling.


Acerca de los autores

Sushant Majithia es gerente principal de productos para EMR en Amazon Web Services.

 Vishal Vyas es ingeniero de software sénior para EMR en Amazon Web Services.

mateo liem es gerente sénior de arquitectura de soluciones en AWS.

Sello de tiempo:

Mas de Big Data de AWS