Reduza os custos de cluster do Amazon EMR em até 19% com novos aprimoramentos no Amazon EMR Managed Scaling

Reduza os custos de cluster do Amazon EMR em até 19% com novos aprimoramentos no Amazon EMR Managed Scaling

Nó Fonte: 1985302

Em junho de 2020, a AWS anunciou a disponibilidade geral de Dimensionamento gerenciado do Amazon EMR. Com o EMR Managed Scaling, você especifica os limites mínimo e máximo de computação para seus clusters, e o Amazon EMR redimensiona automaticamente seu cluster para desempenho e utilização de recursos ideais. O EMR Managed Scaling monitora constantemente as principais métricas relacionadas à carga de trabalho e usa um algoritmo que otimiza o tamanho do cluster para melhor utilização de recursos. Dado que o recurso é totalmente gerenciado, as melhorias no algoritmo são realizadas imediatamente sem a necessidade de atualização de versão. O Amazon EMR pode aumentar o cluster durante os picos e reduzi-lo graciosamente durante os períodos ociosos, reduzindo seus custos e otimizando a capacidade do cluster para obter o melhor desempenho.

Ao longo de 2022, fizemos vários aprimoramentos no algoritmo EMR Managed Scaling. Com essas melhorias, observamos que para clusters habilitados com EMR Managed Scaling, a utilização melhorou em até 15% e os custos totais foram reduzidos ainda mais em até 19%. A partir de meados de dezembro de 2022, os aprimoramentos do EMR Managed Scaling foram habilitados por padrão para clusters usando Amazon EMR versões 5.34.0 e posteriores e Amazon EMR versões 6.4.0 e posteriores para clusters novos e existentes. Além disso, como o recurso é totalmente gerenciado, você obterá o novo algoritmo otimizado de dimensionamento gerenciado por padrão, e nenhuma ação será necessária de sua parte.

Listados abaixo estão alguns dos principais aprimoramentos que habilitamos para EMR Managed Scaling:

  • Utilização de cluster aprimorada com redução direcionada de seu cluster EMR
  • Custos reduzidos ao evitar a redução de escala de instâncias que armazenam dados intermediários de embaralhamento usando Reconhecimento de dados do Spark Shuffle
  • Melhor utilização do cluster e redução de custos com expansão gradual de seu cluster EMR

Histórias e sucesso de clientes

Como o algoritmo EMR Managed Scaling aprimorado ajudou uma empresa de tecnologia a reduzir custos:

Para ilustrar a economia de custos com exemplos, examinamos clusters EMR para uma empresa de tecnologia, que usa fortemente o Amazon EMR para processar dados de cobrança em tempo real entre Kafka e S3 usando Spark. Eles executam um cluster EMR persistente com EMR versão 5.35 e têm o EMR Managed Scaling ativado. O painel do Amazon CloudWatch a seguir mostra como, a partir de 21 de dezembro, o algoritmo aprimorado do Managed Scaling provisionou (nós totais solicitados) apenas 70 nós em comparação com o algoritmo de dimensionamento gerenciado anterior, que provisionava 179 nós para um perfil de trabalho semelhante. Quanto menor o número de recursos provisionados para executar seus trabalhos, menor o custo total de seu cluster EMR.

Como o algoritmo EMR Managed Scaling aprimorado ajudou uma empresa de publicidade a reduzir custos:

Também analisamos um cluster EMR para uma empresa de publicidade, que aproveita o Amazon EMR para sua estratégia de análise de dados e executa seus trabalhos de ETL em lote usando o Spark. Eles executam seus clusters no EMR versão 6.5 e têm o EMR Managed Scaling ativado. O painel do Amazon CloudWatch a seguir mostra como, a partir de 15 de dezembro, o algoritmo aprimorado do Managed Scaling provisionou (unidades totais solicitadas) apenas 41 nós em comparação com o algoritmo de dimensionamento gerenciado anterior, que provisionava 86 nós para um perfil de trabalho semelhante.

Estimando a economia de custos e as melhorias de utilização para seus clusters EMR:

Economia de custo do cluster:

Para visualizar a economia de custos estimada para seu cluster EMR com os aprimoramentos do EMR Managed Scaling, siga as etapas abaixo:

  • Abra o Console de métricas do CloudWatch e abaixo EMR, procure pelo seu ClusterId.
  • Na lista de métricas disponíveis para EMR, selecione as duas métricas a seguir:
    • Capacidade de corrida – Com base no tipo de unidade que você especificou em sua política de Managed Scaling, isso estará disponível como “Total de unidades em execução”Ou“TotalNodesRunningouTotalVCPURunning"
    • Capacidade solicitada pelo escalonamento gerenciado – Com base no tipo de unidade que você especificou em sua política de Managed Scaling, isso estará disponível como “Total de unidades solicitadas”Ou“TotalNodes solicitadosouTotalVCPURequested"
  •  Plote ambas as métricas em seu painel do CloudWatch.
  • Selecione o período de tempo de 3 meses entre novembro de 2022 e janeiro de 2023 para visualizar as melhorias com o algoritmo de escalabilidade gerenciada aprimorado em comparação com o algoritmo de escalabilidade gerenciada anterior.

Melhorias na utilização do cluster:

Para estimar as melhorias na utilização do cluster EMR com os aprimoramentos do EMR Managed Scaling, siga as etapas abaixo:

  • Abra o console de métricas do CloudWatch e, em EMR, procure pelo seu ClusterId.
  • Na lista de métricas disponíveis para EMR, selecione a opção “YARNMemoryAvailablePercentage" métrica.
  • Para derivar a memória utilizada pelo YARN, adicione uma expressão matemática como “Add Math → Start with empty expression”
    • Para a nova expressão matemática, defina Rótulo=Utilização do Fio E definir Detalhes=100-YARNMemoryAvailablePercentage.
  • Plote a métrica de utilização do cluster em seu painel do CloudWatch.
  • Selecione o período de tempo de 3 meses entre novembro de 2022 e janeiro de 2023 para visualizar as melhorias com o algoritmo de escalabilidade gerenciada aprimorado em comparação com o algoritmo de escalabilidade gerenciada anterior.

Qual é o próximo

Continuaremos a ajustar o algoritmo do Managed Scaling a cada nova versão do EMR e, assim, melhorar a experiência do cliente ao dimensionar clusters com o EMR Managed Scaling.

Conclusão

Nesta postagem, fornecemos uma visão geral do principal aprimoramento que lançamos no EMR Managed Scaling. Com esses aprimoramentos, observamos que a utilização do cluster melhorou em até 15% e o custo do cluster foi reduzido em até 19%. A partir de meados de dezembro de 2022, esses aprimoramentos foram habilitados por padrão para clusters EMR usando Amazon EMR versões 5.34.0 e posteriores e Amazon EMR versões 6.4.0 e posteriores. Como o EMR Managed Scaling é um recurso totalmente gerenciado, você obterá o novo algoritmo otimizado de EMR Managed Scaling por padrão, e nenhuma ação é necessária de sua parte.

Para saber mais e começar a usar o EMR Managed Scaling, visite o Página de documentação do EMR Managed Scaling.


Sobre os autores

Sushant Majithia é gerente de produto principal para EMR na Amazon Web Services.

 Vishal Vyas é engenheiro de software sênior para EMR na Amazon Web Services.

Mateus Liem é gerente sênior de arquitetura de soluções da AWS.

Carimbo de hora:

Mais de Grandes dados da AWS