Amazon EMR lança suporte para instâncias Amazon EC2 C7g (Graviton3) para melhorar o desempenho de custo para cargas de trabalho Spark em 7–13%

Amazon EMR lança suporte para instâncias Amazon EC2 C7g (Graviton3) para melhorar o desempenho de custo para cargas de trabalho Spark em 7–13%

Nó Fonte: 1935298

Amazon EMR fornece um serviço gerenciado para executar facilmente aplicativos analíticos usando estruturas de código aberto, como Apache Spark, Hive, Presto, Trino, HBase e Flink. O tempo de execução do Amazon EMR para Faísca e Presto inclui otimizações que fornecem mais do que o dobro das melhorias de desempenho em comparação com o Apache Spark e o Presto de código aberto.

Com a versão 6.7 do Amazon EMR, agora você pode usar Amazon Elastic Compute Nuvem (Amazon EC2) instâncias C7g, que usam o AWS Graviton3 processadores. Essas instâncias melhoram o desempenho de preço da execução de cargas de trabalho do Spark no Amazon EMR em 7.93–13.35% em relação às instâncias da geração anterior, dependendo do tamanho da instância. Neste post, descrevemos como estimamos o benefício preço-desempenho.

Desempenho de tempo de execução do Amazon EMR com instâncias EC2 C7g

Executamos consultas de benchmark TPC-DS 3 TB no Amazon EMR 6.9 usando o tempo de execução do Amazon EMR para Apache Spark (compatível com Apache Spark 3.3) com instâncias C7g. Os dados foram armazenados em Serviço de armazenamento simples da Amazon (Amazon S3) e os resultados foram comparados com clusters C6g equivalentes da família de instâncias da geração anterior. Medimos as melhorias de desempenho usando o tempo de execução total da consulta e a média geométrica do tempo de execução da consulta em consultas de benchmark TPC-DS de 3 TB.

Nossos resultados mostraram uma melhoria de 13.65–18.73% no desempenho total do tempo de execução da consulta e uma melhoria de 16.98–20.28% na média geométrica em clusters EMR com C7g em comparação com clusters EMR equivalentes com instâncias C6g, dependendo do tamanho da instância. Ao comparar os custos, observamos uma redução de custo de 7.93 a 13.35% no cluster EMR com C7g em comparação com o equivalente com C6g, dependendo do tamanho da instância. Não comparamos a instância C6g xlarge porque ela não tinha memória suficiente para executar as consultas.

A tabela a seguir mostra os resultados da execução das consultas de benchmark TPC-DS 3 TB usando o Amazon EMR 6.9 em comparação com clusters EMR de instância C7g e C6g equivalentes.

Tamanho da instância 16 XL 12 XL 8 XL 4 XL 2 XL
Tamanho total do cluster (1 líder + 5 nós principais) 6 6 6 6 6
Tempo total de execução da consulta em C6g (segundos) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Tempo total de execução da consulta em C7g (segundos) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Melhoria total do tempo de execução da consulta com C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Tempo de execução de consulta de média geométrica C6g (segundos) 22.2113 21.75459 23.38081 31.97192 45.41656
Tempo de execução de consulta de média geométrica C7g (segundos) 18.43905 17.65898 19.01684 25.48695 37.43737
Melhoria do tempo de execução da consulta de média geométrica com C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Preço da instância EC2 C6g ($ por hora) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Preço da instância EMR C6g ($ por hora) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) preço da instância ($ por hora) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Custo de execução em C6g ($ por instância) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Preço da instância EC2 C7g ($ por hora) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Preço EMR C7g ($ por hora por instância) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Preço da instância C7g ($ por hora) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Custo de execução em C7g ($ por instância) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Redução total de custos com C7g, incluindo melhoria de desempenho -7.93% -9.52% -9.32% -13.35% -11.13%

O gráfico a seguir mostra melhorias por consulta observadas em instâncias C7g 2xlarge em comparação com gerações C6g equivalentes.

Metodologia de benchmarking

O benchmark usado nesta postagem é derivado do benchmark TPC-DS padrão do setor e usa consultas do Testes de desempenho do Spark SQL repositório do GitHub com o seguinte fixo aplicado.

Calculamos o TCO multiplicando o custo por hora pelo número de instâncias no cluster e o tempo gasto para executar as consultas no cluster. Usamos preços sob demanda na região Leste dos EUA (N. Virgínia) para todas as instâncias.

Conclusão

Nesta postagem, descrevemos como estimamos o benefício de custo-desempenho do uso do Amazon EMR com instâncias C7g em comparação com o uso de instâncias equivalentes da geração anterior. O uso dessas novas instâncias com o Amazon EMR melhora o custo-desempenho em mais 7 a 13%.


Sobre os autores

MIRAAl-MS é gerente de produto do Amazon EMR na Amazon Web Services.

Kyeonghyun Ryoo é um engenheiro de desenvolvimento de software para EMR na Amazon Web Services. Ele trabalha principalmente no projeto e construção de ferramentas de automação para equipes internas e clientes para maximizar sua produtividade. Fora do trabalho, ele é um campeão mundial aposentado em jogos profissionais que ainda gosta de jogar videogames.

Sol Yuzhou é engenheiro de desenvolvimento de software para EMR na Amazon Web Services.

Steve Koonce é gerente de engenharia para EMR na Amazon Web Services.

Carimbo de hora:

Mais de Grandes dados da AWS