Amazon EMR lanza soporte para instancias Amazon EC2 C7g (Graviton3) para mejorar el rendimiento de costos para cargas de trabajo de Spark entre un 7% y un 13%

Reeditado por Platón

seguidores: 0

EMR de Amazon proporciona un servicio administrado para ejecutar fácilmente aplicaciones de análisis utilizando marcos de código abierto como Apache Spark, Hive, Presto, Trino, HBase y Flink. El tiempo de ejecución de Amazon EMR para Spark y presto incluye optimizaciones que proporcionan más del doble de mejoras de rendimiento en comparación con Apache Spark y Presto de código abierto.

Con la versión 6.7 de Amazon EMR, ahora puede utilizar Nube informática elástica de Amazon (Amazon EC2) instancias C7g, que utilizan el Gravitón3 de AWS procesadores Estas instancias mejoran la relación precio-rendimiento de la ejecución de cargas de trabajo de Spark en Amazon EMR entre un 7.93 % y un 13.35 % con respecto a las instancias de la generación anterior, según el tamaño de la instancia. En esta publicación, describimos cómo estimamos el beneficio de precio-rendimiento.

Rendimiento del tiempo de ejecución de Amazon EMR con instancias EC2 C7g

Ejecutamos consultas comparativas de TPC-DS de 3 TB en Amazon EMR 6.9 utilizando el tiempo de ejecución de Amazon EMR para Apache Spark (compatible con Apache Spark 3.3) con instancias C7g. Los datos fueron almacenados en Servicio de almacenamiento simple de Amazon (Amazon S3), y los resultados se compararon con clústeres C6g equivalentes de la familia de instancias de la generación anterior. Medimos las mejoras de rendimiento utilizando el tiempo de ejecución de consultas total y la media geométrica del tiempo de ejecución de consultas en consultas comparativas de TPC-DS de 3 TB.

Nuestros resultados mostraron una mejora del 13.65 al 18.73 % en el rendimiento total del tiempo de ejecución de consultas y una mejora del 16.98 al 20.28 % en la media geométrica en clústeres de EMR con C7g en comparación con clústeres de EMR equivalentes con instancias C6g, según el tamaño de la instancia. Al comparar los costos, observamos una reducción del costo del 7.93 al 13.35 % en el clúster de EMR con C7g en comparación con el equivalente con C6g, según el tamaño de la instancia. No comparamos la instancia de C6g xlarge porque no tenía suficiente memoria para ejecutar las consultas.

En la siguiente tabla, se muestran los resultados de la ejecución de consultas comparativas de TPC-DS de 3 TB con Amazon EMR 6.9 en comparación con clústeres de EMR de instancias C7g y C6g equivalentes.

Tamaño de instancia	16 XL	12 XL	8 XL	4 XL	2 XL
Tamaño total del clúster (1 líder + 5 nodos centrales)	6	6	6	6	6
Tiempo total de ejecución de consultas en C6g (segundos)	2774.86205	2752.84429	3173.08086	5108.45489	8697.08117
Tiempo total de ejecución de consultas en C7g (segundos)	2396.22799	2336.28224	2698.72928	4151.85869	7249.58148
Mejora total del tiempo de ejecución de consultas con C7g	13.65%	15.13%	14.95%	18.73%	16.64%
Tiempo de ejecución de consulta de media geométrica C6g (segundos)	22.2113	21.75459	23.38081	31.97192	45.41656
Tiempo de ejecución de consulta de media geométrica C7g (segundos)	18.43905	17.65898	19.01684	25.48695	37.43737
Mejora del tiempo de ejecución de consultas de media geométrica con C7g	16.98%	18.83%	18.66%	20.28%	17.57%
Precio de la instancia EC2 C6g ($ por hora)	$2.1760	$1.6320	$1.0880	$0.5440	$0.2720
Precio de la instancia EMR C6g ($ por hora)	$0.5440	$0.4080	$0.2720	$0.1360	$0.0680
(EC2 + EMR) precio de la instancia ($ por hora)	$2.7200	$2.0400	$1.3600	$0.6800	$0.3400
Costo de ejecución en C6g ($ por instancia)	$2.09656	$1.55995	$1.19872	$0.96493	$0.82139
Precio de la instancia EC2 C7g ($ por hora)	$2.3200	$1.7400	$1.1600	$0.5800	$0.2900
Precio de EMR C7g ($ por hora por instancia)	$0.5800	$0.4350	$0.2900	$0.1450	$0.0725
(EC2 + EMR) Precio de la instancia C7g ($ por hora)	$2.9000	$2.1750	$1.4500	$0.7250	$0.3625
Costo de ejecución en C7g ($ por instancia)	$1.930290	$1.411500	$1.086990	$0.836140	$0.729990
Reducción total de costes con C7g, incluida la mejora del rendimiento	- 7.93%	- 9.52%	- 9.32%	- 13.35%	- 11.13%

El siguiente gráfico muestra las mejoras por consulta observadas en instancias C7g 2xlarge en comparación con las generaciones C6g equivalentes.

Metodología de evaluación comparativa

El punto de referencia utilizado en esta publicación se deriva del punto de referencia TPC-DS estándar de la industria y utiliza consultas de la Pruebas de rendimiento de Spark SQL Repositorio de GitHub con la GMT fijo aplicado.

Calculamos el TCO multiplicando el costo por hora por la cantidad de instancias en el clúster y el tiempo necesario para ejecutar las consultas en el clúster. Usamos precios según demanda en la región EE. UU. Este (Norte de Virginia) para todas las instancias.

Conclusión

En esta publicación, describimos cómo estimamos el beneficio de costo-rendimiento del uso de Amazon EMR con instancias C7g en comparación con el uso de instancias equivalentes de la generación anterior. El uso de estas nuevas instancias con Amazon EMR mejora el costo-rendimiento entre un 7% y un 13% adicional.

Sobre los autores

AI EM Al EM es gerente de producto de Amazon EMR en Amazon Web Services.

Kyeonghyun Ryoo es ingeniero de desarrollo de software para EMR en Amazon Web Services. Trabaja principalmente en el diseño y la construcción de herramientas de automatización para equipos internos y clientes para maximizar su productividad. Fuera del trabajo, es un campeón mundial retirado de juegos profesionales que todavía disfruta de los videojuegos.

Sol de Yuzhou es ingeniero de desarrollo de software para EMR en Amazon Web Services.

steve koonce es Gerente de ingeniería para EMR en Amazon Web Services.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/

Sello de tiempo: Febrero 1, 2023

Sello de tiempo: 11 de Agosto, 2023

Amazon EMR lanza soporte para instancias Amazon EC2 C7g (Graviton3) para mejorar el rendimiento de los costos para las cargas de trabajo de Spark entre un 7 % y un 13 %

Reeditado por Platón

Rendimiento del tiempo de ejecución de Amazon EMR con instancias EC2 C7g

Metodología de evaluación comparativa

Conclusión

Sobre los autores

Mas de Big Data de AWS

Reduzca los costos del clúster de Amazon EMR hasta en un 19 % con nuevas mejoras en Amazon EMR Managed Scaling

Transmita registros de flujo de VPC a Datadog a través de Amazon Kinesis Data Firehose | Servicios web de Amazon

Presentamos compatibilidad con VPC compartida en Amazon MWAA | Servicios web de Amazon

Implemente dimensiones que cambian lentamente en un lago de datos con AWS Glue y Delta

Modelado dimensional en Amazon Redshift | Servicios web de Amazon

Implemente Amazon OpenSearch sin servidor con Terraform | Servicios web de Amazon

Cree una canalización de transmisión sin servidor con Amazon MSK Serverless, Amazon MSK Connect y MongoDB Atlas

Cómo Ontraport redujo el costo de procesamiento de datos en un 80 % con AWS Glue | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta