Reduza os custos de cluster do Amazon EMR em até 19% com novos aprimoramentos na escalabilidade gerenciada do Amazon EMR

Republicado por Platão

seguidores: 0

Em junho de 2020, a AWS anunciou a disponibilidade geral de Dimensionamento gerenciado do Amazon EMR. Com o EMR Managed Scaling, você especifica os limites mínimo e máximo de computação para seus clusters, e o Amazon EMR redimensiona automaticamente seu cluster para desempenho e utilização de recursos ideais. O EMR Managed Scaling monitora constantemente as principais métricas relacionadas à carga de trabalho e usa um algoritmo que otimiza o tamanho do cluster para melhor utilização de recursos. Dado que o recurso é totalmente gerenciado, as melhorias no algoritmo são realizadas imediatamente sem a necessidade de atualização de versão. O Amazon EMR pode aumentar o cluster durante os picos e reduzi-lo graciosamente durante os períodos ociosos, reduzindo seus custos e otimizando a capacidade do cluster para obter o melhor desempenho.

Ao longo de 2022, fizemos vários aprimoramentos no algoritmo EMR Managed Scaling. Com essas melhorias, observamos que para clusters habilitados com EMR Managed Scaling, a utilização melhorou em até 15% e os custos totais foram reduzidos ainda mais em até 19%. A partir de meados de dezembro de 2022, os aprimoramentos do EMR Managed Scaling foram habilitados por padrão para clusters usando Amazon EMR versões 5.34.0 e posteriores e Amazon EMR versões 6.4.0 e posteriores para clusters novos e existentes. Além disso, como o recurso é totalmente gerenciado, você obterá o novo algoritmo otimizado de dimensionamento gerenciado por padrão, e nenhuma ação será necessária de sua parte.

Listados abaixo estão alguns dos principais aprimoramentos que habilitamos para EMR Managed Scaling:

Utilização de cluster aprimorada com redução direcionada de seu cluster EMR
Custos reduzidos ao evitar a redução de escala de instâncias que armazenam dados intermediários de embaralhamento usando Reconhecimento de dados do Spark Shuffle
Melhor utilização do cluster e redução de custos com expansão gradual de seu cluster EMR

Histórias e sucesso de clientes

Como o algoritmo EMR Managed Scaling aprimorado ajudou uma empresa de tecnologia a reduzir custos:

Para ilustrar a economia de custos com exemplos, examinamos clusters EMR para uma empresa de tecnologia, que usa fortemente o Amazon EMR para processar dados de cobrança em tempo real entre Kafka e S3 usando Spark. Eles executam um cluster EMR persistente com EMR versão 5.35 e têm o EMR Managed Scaling ativado. O painel do Amazon CloudWatch a seguir mostra como, a partir de 21 de dezembro, o algoritmo aprimorado do Managed Scaling provisionou (nós totais solicitados) apenas 70 nós em comparação com o algoritmo de dimensionamento gerenciado anterior, que provisionava 179 nós para um perfil de trabalho semelhante. Quanto menor o número de recursos provisionados para executar seus trabalhos, menor o custo total de seu cluster EMR.

Como o algoritmo EMR Managed Scaling aprimorado ajudou uma empresa de publicidade a reduzir custos:

Também analisamos um cluster EMR para uma empresa de publicidade, que aproveita o Amazon EMR para sua estratégia de análise de dados e executa seus trabalhos de ETL em lote usando o Spark. Eles executam seus clusters no EMR versão 6.5 e têm o EMR Managed Scaling ativado. O painel do Amazon CloudWatch a seguir mostra como, a partir de 15 de dezembro, o algoritmo aprimorado do Managed Scaling provisionou (unidades totais solicitadas) apenas 41 nós em comparação com o algoritmo de dimensionamento gerenciado anterior, que provisionava 86 nós para um perfil de trabalho semelhante.

Estimando a economia de custos e as melhorias de utilização para seus clusters EMR:

Economia de custo do cluster:

Para visualizar a economia de custos estimada para seu cluster EMR com os aprimoramentos do EMR Managed Scaling, siga as etapas abaixo:

Abra o Console de métricas do CloudWatch e abaixo EMR, procure pelo seu ClusterId.
Na lista de métricas disponíveis para EMR, selecione as duas métricas a seguir:
- Capacidade de corrida – Com base no tipo de unidade que você especificou em sua política de Managed Scaling, isso estará disponível como “Total de unidades em execução”Ou“TotalNodesRunningouTotalVCPURunning".
- Capacidade solicitada pelo escalonamento gerenciado – Com base no tipo de unidade que você especificou em sua política de Managed Scaling, isso estará disponível como “Total de unidades solicitadas”Ou“TotalNodes solicitadosouTotalVCPURequested".
Plote ambas as métricas em seu painel do CloudWatch.
Selecione o período de tempo de 3 meses entre novembro de 2022 e janeiro de 2023 para visualizar as melhorias com o algoritmo de escalabilidade gerenciada aprimorado em comparação com o algoritmo de escalabilidade gerenciada anterior.

Melhorias na utilização do cluster:

Para estimar as melhorias na utilização do cluster EMR com os aprimoramentos do EMR Managed Scaling, siga as etapas abaixo:

Abra o console de métricas do CloudWatch e, em EMR, procure pelo seu ClusterId.
Na lista de métricas disponíveis para EMR, selecione a opção “YARNMemoryAvailablePercentage" métrica.
Para derivar a memória utilizada pelo YARN, adicione uma expressão matemática como “Add Math → Start with empty expression”
- Para a nova expressão matemática, defina Rótulo=Utilização do Fio E definir Detalhes=100-YARNMemoryAvailablePercentage.
Plote a métrica de utilização do cluster em seu painel do CloudWatch.
Selecione o período de tempo de 3 meses entre novembro de 2022 e janeiro de 2023 para visualizar as melhorias com o algoritmo de escalabilidade gerenciada aprimorado em comparação com o algoritmo de escalabilidade gerenciada anterior.

Qual é o próximo

Continuaremos a ajustar o algoritmo do Managed Scaling a cada nova versão do EMR e, assim, melhorar a experiência do cliente ao dimensionar clusters com o EMR Managed Scaling.

Conclusão

Nesta postagem, fornecemos uma visão geral do principal aprimoramento que lançamos no EMR Managed Scaling. Com esses aprimoramentos, observamos que a utilização do cluster melhorou em até 15% e o custo do cluster foi reduzido em até 19%. A partir de meados de dezembro de 2022, esses aprimoramentos foram habilitados por padrão para clusters EMR usando Amazon EMR versões 5.34.0 e posteriores e Amazon EMR versões 6.4.0 e posteriores. Como o EMR Managed Scaling é um recurso totalmente gerenciado, você obterá o novo algoritmo otimizado de EMR Managed Scaling por padrão, e nenhuma ação é necessária de sua parte.

Para saber mais e começar a usar o EMR Managed Scaling, visite o Página de documentação do EMR Managed Scaling.

Sobre os autores

Sushant Majithia é gerente de produto principal para EMR na Amazon Web Services.

Vishal Vyas é engenheiro de software sênior para EMR na Amazon Web Services.

Mateus Liem é gerente sênior de arquitetura de soluções da AWS.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/big-data/reduce-amazon-emr-cluster-costs-by-up-to-19-with-new-enhancements-in-amazon-emr-managed-scaling/

Carimbo de hora: 28 de fevereiro de 2023

Carimbo de hora: 22 de setembro de 2023

Reduza os custos de cluster do Amazon EMR em até 19% com novos aprimoramentos no Amazon EMR Managed Scaling

Republicado por Platão

Histórias e sucesso de clientes

Estimando a economia de custos e as melhorias de utilização para seus clusters EMR:

Economia de custo do cluster:

Melhorias na utilização do cluster:

Qual é o próximo

Conclusão

Sobre os autores

Mais de Grandes dados da AWS

Crie mais partições e retenha dados por mais tempo em seus clusters MSK Serverless

Use IA generativa com Amazon EMR, Amazon Bedrock e SDK em inglês para Apache Spark para obter insights | Amazon Web Services

A BWH Hotels dimensiona a adoção de business intelligence empresarial enquanto reduz os custos com o Amazon QuickSight | Amazon Web Services

Nova classe de log do Amazon CloudWatch para dimensionar de maneira econômica suas cargas de trabalho do AWS Glue | Amazon Web Services

Governança automatizada de dados com AWS Glue Data Quality, detecção de dados confidenciais e AWS Lake Formation | Amazon Web Services

Use o Amazon Athena com Spark SQL para formatos de tabelas transacionais de código aberto | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta