Amazon EMR lança suporte para instâncias C2g (Graviton7) do Amazon EC3 para melhorar o desempenho de custos para cargas de trabalho Spark em 7–13%

Republicado por Platão

seguidores: 0

Amazon EMR fornece um serviço gerenciado para executar facilmente aplicativos analíticos usando estruturas de código aberto, como Apache Spark, Hive, Presto, Trino, HBase e Flink. O tempo de execução do Amazon EMR para Faísca e Presto inclui otimizações que fornecem mais do que o dobro das melhorias de desempenho em comparação com o Apache Spark e o Presto de código aberto.

Com a versão 6.7 do Amazon EMR, agora você pode usar Amazon Elastic Compute Nuvem (Amazon EC2) instâncias C7g, que usam o AWS Graviton3 processadores. Essas instâncias melhoram o desempenho de preço da execução de cargas de trabalho do Spark no Amazon EMR em 7.93–13.35% em relação às instâncias da geração anterior, dependendo do tamanho da instância. Neste post, descrevemos como estimamos o benefício preço-desempenho.

Desempenho de tempo de execução do Amazon EMR com instâncias EC2 C7g

Executamos consultas de benchmark TPC-DS 3 TB no Amazon EMR 6.9 usando o tempo de execução do Amazon EMR para Apache Spark (compatível com Apache Spark 3.3) com instâncias C7g. Os dados foram armazenados em Serviço de armazenamento simples da Amazon (Amazon S3) e os resultados foram comparados com clusters C6g equivalentes da família de instâncias da geração anterior. Medimos as melhorias de desempenho usando o tempo de execução total da consulta e a média geométrica do tempo de execução da consulta em consultas de benchmark TPC-DS de 3 TB.

Nossos resultados mostraram uma melhoria de 13.65–18.73% no desempenho total do tempo de execução da consulta e uma melhoria de 16.98–20.28% na média geométrica em clusters EMR com C7g em comparação com clusters EMR equivalentes com instâncias C6g, dependendo do tamanho da instância. Ao comparar os custos, observamos uma redução de custo de 7.93 a 13.35% no cluster EMR com C7g em comparação com o equivalente com C6g, dependendo do tamanho da instância. Não comparamos a instância C6g xlarge porque ela não tinha memória suficiente para executar as consultas.

A tabela a seguir mostra os resultados da execução das consultas de benchmark TPC-DS 3 TB usando o Amazon EMR 6.9 em comparação com clusters EMR de instância C7g e C6g equivalentes.

Tamanho da instância	16 XL	12 XL	8 XL	4 XL	2 XL
Tamanho total do cluster (1 líder + 5 nós principais)	6	6	6	6	6
Tempo total de execução da consulta em C6g (segundos)	2774.86205	2752.84429	3173.08086	5108.45489	8697.08117
Tempo total de execução da consulta em C7g (segundos)	2396.22799	2336.28224	2698.72928	4151.85869	7249.58148
Melhoria total do tempo de execução da consulta com C7g	13.65%	15.13%	14.95%	18.73%	16.64%
Tempo de execução de consulta de média geométrica C6g (segundos)	22.2113	21.75459	23.38081	31.97192	45.41656
Tempo de execução de consulta de média geométrica C7g (segundos)	18.43905	17.65898	19.01684	25.48695	37.43737
Melhoria do tempo de execução da consulta de média geométrica com C7g	16.98%	18.83%	18.66%	20.28%	17.57%
Preço da instância EC2 C6g ($ por hora)	$2.1760	$1.6320	$1.0880	$0.5440	$0.2720
Preço da instância EMR C6g ($ por hora)	$0.5440	$0.4080	$0.2720	$0.1360	$0.0680
(EC2 + EMR) preço da instância ($ por hora)	$2.7200	$2.0400	$1.3600	$0.6800	$0.3400
Custo de execução em C6g ($ por instância)	$2.09656	$1.55995	$1.19872	$0.96493	$0.82139
Preço da instância EC2 C7g ($ por hora)	$2.3200	$1.7400	$1.1600	$0.5800	$0.2900
Preço EMR C7g ($ por hora por instância)	$0.5800	$0.4350	$0.2900	$0.1450	$0.0725
(EC2 + EMR) Preço da instância C7g ($ por hora)	$2.9000	$2.1750	$1.4500	$0.7250	$0.3625
Custo de execução em C7g ($ por instância)	$1.930290	$1.411500	$1.086990	$0.836140	$0.729990
Redução total de custos com C7g, incluindo melhoria de desempenho	-7.93%	-9.52%	-9.32%	-13.35%	-11.13%

O gráfico a seguir mostra melhorias por consulta observadas em instâncias C7g 2xlarge em comparação com gerações C6g equivalentes.

Metodologia de benchmarking

O benchmark usado nesta postagem é derivado do benchmark TPC-DS padrão do setor e usa consultas do Testes de desempenho do Spark SQL repositório do GitHub com o seguinte fixo aplicado.

Calculamos o TCO multiplicando o custo por hora pelo número de instâncias no cluster e o tempo gasto para executar as consultas no cluster. Usamos preços sob demanda na região Leste dos EUA (N. Virgínia) para todas as instâncias.

Conclusão

Nesta postagem, descrevemos como estimamos o benefício de custo-desempenho do uso do Amazon EMR com instâncias C7g em comparação com o uso de instâncias equivalentes da geração anterior. O uso dessas novas instâncias com o Amazon EMR melhora o custo-desempenho em mais 7 a 13%.

Sobre os autores

MIRA Al-MS é gerente de produto do Amazon EMR na Amazon Web Services.

Kyeonghyun Ryoo é um engenheiro de desenvolvimento de software para EMR na Amazon Web Services. Ele trabalha principalmente no projeto e construção de ferramentas de automação para equipes internas e clientes para maximizar sua produtividade. Fora do trabalho, ele é um campeão mundial aposentado em jogos profissionais que ainda gosta de jogar videogames.

Sol Yuzhou é engenheiro de desenvolvimento de software para EMR na Amazon Web Services.

Steve Koonce é gerente de engenharia para EMR na Amazon Web Services.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/

Carimbo de hora: 1 de fevereiro de 2023

Carimbo de hora: 27 de abril, 2023

Amazon EMR lança suporte para instâncias Amazon EC2 C7g (Graviton3) para melhorar o desempenho de custo para cargas de trabalho Spark em 7–13%

Republicado por Platão

Desempenho de tempo de execução do Amazon EMR com instâncias EC2 C7g

Metodologia de benchmarking

Conclusão

Sobre os autores

Mais de Grandes dados da AWS

Automatize a replicação de fontes relacionais em um data lake transacional com Apache Iceberg e AWS Glue

Conceitos básicos do AWS Glue Data Quality para pipelines ETL

Principais estratégias para rastreamento de alto volume com o Amazon OpenSearch Ingestion

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta