Amazon EMR fornece um serviço gerenciado para executar facilmente aplicativos analíticos usando estruturas de código aberto, como Apache Spark, Hive, Presto, Trino, HBase e Flink. O tempo de execução do Amazon EMR para Faísca e Presto inclui otimizações que fornecem mais do que o dobro das melhorias de desempenho em comparação com o Apache Spark e o Presto de código aberto.
Com a versão 6.7 do Amazon EMR, agora você pode usar Amazon Elastic Compute Nuvem (Amazon EC2) instâncias C7g, que usam o AWS Graviton3 processadores. Essas instâncias melhoram o desempenho de preço da execução de cargas de trabalho do Spark no Amazon EMR em 7.93–13.35% em relação às instâncias da geração anterior, dependendo do tamanho da instância. Neste post, descrevemos como estimamos o benefício preço-desempenho.
Desempenho de tempo de execução do Amazon EMR com instâncias EC2 C7g
Executamos consultas de benchmark TPC-DS 3 TB no Amazon EMR 6.9 usando o tempo de execução do Amazon EMR para Apache Spark (compatível com Apache Spark 3.3) com instâncias C7g. Os dados foram armazenados em Serviço de armazenamento simples da Amazon (Amazon S3) e os resultados foram comparados com clusters C6g equivalentes da família de instâncias da geração anterior. Medimos as melhorias de desempenho usando o tempo de execução total da consulta e a média geométrica do tempo de execução da consulta em consultas de benchmark TPC-DS de 3 TB.
Nossos resultados mostraram uma melhoria de 13.65–18.73% no desempenho total do tempo de execução da consulta e uma melhoria de 16.98–20.28% na média geométrica em clusters EMR com C7g em comparação com clusters EMR equivalentes com instâncias C6g, dependendo do tamanho da instância. Ao comparar os custos, observamos uma redução de custo de 7.93 a 13.35% no cluster EMR com C7g em comparação com o equivalente com C6g, dependendo do tamanho da instância. Não comparamos a instância C6g xlarge porque ela não tinha memória suficiente para executar as consultas.
A tabela a seguir mostra os resultados da execução das consultas de benchmark TPC-DS 3 TB usando o Amazon EMR 6.9 em comparação com clusters EMR de instância C7g e C6g equivalentes.
Tamanho da instância | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Tamanho total do cluster (1 líder + 5 nós principais) | 6 | 6 | 6 | 6 | 6 |
Tempo total de execução da consulta em C6g (segundos) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Tempo total de execução da consulta em C7g (segundos) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Melhoria total do tempo de execução da consulta com C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Tempo de execução de consulta de média geométrica C6g (segundos) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Tempo de execução de consulta de média geométrica C7g (segundos) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Melhoria do tempo de execução da consulta de média geométrica com C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
Preço da instância EC2 C6g ($ por hora) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
Preço da instância EMR C6g ($ por hora) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) preço da instância ($ por hora) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Custo de execução em C6g ($ por instância) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
Preço da instância EC2 C7g ($ por hora) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
Preço EMR C7g ($ por hora por instância) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) Preço da instância C7g ($ por hora) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Custo de execução em C7g ($ por instância) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Redução total de custos com C7g, incluindo melhoria de desempenho | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
O gráfico a seguir mostra melhorias por consulta observadas em instâncias C7g 2xlarge em comparação com gerações C6g equivalentes.
Metodologia de benchmarking
O benchmark usado nesta postagem é derivado do benchmark TPC-DS padrão do setor e usa consultas do Testes de desempenho do Spark SQL repositório do GitHub com o seguinte fixo aplicado.
Calculamos o TCO multiplicando o custo por hora pelo número de instâncias no cluster e o tempo gasto para executar as consultas no cluster. Usamos preços sob demanda na região Leste dos EUA (N. Virgínia) para todas as instâncias.
Conclusão
Nesta postagem, descrevemos como estimamos o benefício de custo-desempenho do uso do Amazon EMR com instâncias C7g em comparação com o uso de instâncias equivalentes da geração anterior. O uso dessas novas instâncias com o Amazon EMR melhora o custo-desempenho em mais 7 a 13%.
Sobre os autores
Al-MS é gerente de produto do Amazon EMR na Amazon Web Services.
Kyeonghyun Ryoo é um engenheiro de desenvolvimento de software para EMR na Amazon Web Services. Ele trabalha principalmente no projeto e construção de ferramentas de automação para equipes internas e clientes para maximizar sua produtividade. Fora do trabalho, ele é um campeão mundial aposentado em jogos profissionais que ainda gosta de jogar videogames.
Sol Yuzhou é engenheiro de desenvolvimento de software para EMR na Amazon Web Services.
Steve Koonce é gerente de engenharia para EMR na Amazon Web Services.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- em
- Adicional
- AI
- Todos os Produtos
- Amazon
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- analítica
- e
- apache
- Apache Spark
- aplicações
- aplicado
- Automação
- Porque
- referência
- beneficiar
- Prédio
- calculado
- campeão
- Agrupar
- comparado
- comparando
- compatível
- Computar
- núcleo
- Custo
- redução de custos
- custos
- Clientes
- dados,
- Dependendo
- Derivado
- descreve
- descrito
- concepção
- Desenvolvimento
- DID
- facilmente
- Leste
- engenheiro
- Engenharia
- desfrutar
- Equivalente
- estimado
- Éter (ETH)
- família
- seguinte
- enquadramentos
- da
- Games
- jogos
- geração
- Gerações
- GitHub
- gráfico
- Colméia
- Como funciona o dobrador de carta de canal
- HTTPS
- melhorar
- melhoria
- melhorias
- melhora
- in
- inclui
- Incluindo
- instância
- interno
- IT
- lança
- líder
- gerenciados
- Gerente
- Maximizar
- Memória
- MS
- multiplicando
- Novo
- nós
- número
- open source
- lado de fora
- atuação
- platão
- Inteligência de Dados Platão
- PlatãoData
- jogar
- Publique
- anterior
- preço
- preços
- principalmente
- processadores
- Produto
- gerente de produto
- produtividade
- profissional
- fornecer
- fornece
- região
- liberar
- Resultados
- Execute
- corrida
- segundo
- serviço
- Serviços
- Shows
- simples
- Tamanho
- Software
- desenvolvimento de software
- Faísca
- SQL
- Ainda
- armazenamento
- armazenadas
- tal
- suficiente
- ajuda
- mesa
- equipes
- testes
- A
- deles
- tempo
- para
- ferramentas
- Total
- us
- usar
- Vídeo
- jogos de vídeo
- Virgínia
- web
- serviços web
- qual
- QUEM
- Atividades:
- trabalho
- mundo
- zefirnet