Em junho de 2020, a AWS anunciou a disponibilidade geral de Dimensionamento gerenciado do Amazon EMR. Com o EMR Managed Scaling, você especifica os limites mínimo e máximo de computação para seus clusters, e o Amazon EMR redimensiona automaticamente seu cluster para desempenho e utilização de recursos ideais. O EMR Managed Scaling monitora constantemente as principais métricas relacionadas à carga de trabalho e usa um algoritmo que otimiza o tamanho do cluster para melhor utilização de recursos. Dado que o recurso é totalmente gerenciado, as melhorias no algoritmo são realizadas imediatamente sem a necessidade de atualização de versão. O Amazon EMR pode aumentar o cluster durante os picos e reduzi-lo graciosamente durante os períodos ociosos, reduzindo seus custos e otimizando a capacidade do cluster para obter o melhor desempenho.
Ao longo de 2022, fizemos vários aprimoramentos no algoritmo EMR Managed Scaling. Com essas melhorias, observamos que para clusters habilitados com EMR Managed Scaling, a utilização melhorou em até 15% e os custos totais foram reduzidos ainda mais em até 19%. A partir de meados de dezembro de 2022, os aprimoramentos do EMR Managed Scaling foram habilitados por padrão para clusters usando Amazon EMR versões 5.34.0 e posteriores e Amazon EMR versões 6.4.0 e posteriores para clusters novos e existentes. Além disso, como o recurso é totalmente gerenciado, você obterá o novo algoritmo otimizado de dimensionamento gerenciado por padrão, e nenhuma ação será necessária de sua parte.
Listados abaixo estão alguns dos principais aprimoramentos que habilitamos para EMR Managed Scaling:
- Utilização de cluster aprimorada com redução direcionada de seu cluster EMR
- Custos reduzidos ao evitar a redução de escala de instâncias que armazenam dados intermediários de embaralhamento usando Reconhecimento de dados do Spark Shuffle
- Melhor utilização do cluster e redução de custos com expansão gradual de seu cluster EMR
Histórias e sucesso de clientes
Como o algoritmo EMR Managed Scaling aprimorado ajudou uma empresa de tecnologia a reduzir custos:
Para ilustrar a economia de custos com exemplos, examinamos clusters EMR para uma empresa de tecnologia, que usa fortemente o Amazon EMR para processar dados de cobrança em tempo real entre Kafka e S3 usando Spark. Eles executam um cluster EMR persistente com EMR versão 5.35 e têm o EMR Managed Scaling ativado. O painel do Amazon CloudWatch a seguir mostra como, a partir de 21 de dezembro, o algoritmo aprimorado do Managed Scaling provisionou (nós totais solicitados) apenas 70 nós em comparação com o algoritmo de dimensionamento gerenciado anterior, que provisionava 179 nós para um perfil de trabalho semelhante. Quanto menor o número de recursos provisionados para executar seus trabalhos, menor o custo total de seu cluster EMR.
Como o algoritmo EMR Managed Scaling aprimorado ajudou uma empresa de publicidade a reduzir custos:
Também analisamos um cluster EMR para uma empresa de publicidade, que aproveita o Amazon EMR para sua estratégia de análise de dados e executa seus trabalhos de ETL em lote usando o Spark. Eles executam seus clusters no EMR versão 6.5 e têm o EMR Managed Scaling ativado. O painel do Amazon CloudWatch a seguir mostra como, a partir de 15 de dezembro, o algoritmo aprimorado do Managed Scaling provisionou (unidades totais solicitadas) apenas 41 nós em comparação com o algoritmo de dimensionamento gerenciado anterior, que provisionava 86 nós para um perfil de trabalho semelhante.
Estimando a economia de custos e as melhorias de utilização para seus clusters EMR:
Economia de custo do cluster:
Para visualizar a economia de custos estimada para seu cluster EMR com os aprimoramentos do EMR Managed Scaling, siga as etapas abaixo:
- Abra o Console de métricas do CloudWatch e abaixo EMR, procure pelo seu
ClusterId
. - Na lista de métricas disponíveis para EMR, selecione as duas métricas a seguir:
- Capacidade de corrida – Com base no tipo de unidade que você especificou em sua política de Managed Scaling, isso estará disponível como “Total de unidades em execução”Ou“TotalNodesRunningouTotalVCPURunning".
- Capacidade solicitada pelo escalonamento gerenciado – Com base no tipo de unidade que você especificou em sua política de Managed Scaling, isso estará disponível como “Total de unidades solicitadas”Ou“TotalNodes solicitadosouTotalVCPURequested".
- Plote ambas as métricas em seu painel do CloudWatch.
- Selecione o período de tempo de 3 meses entre novembro de 2022 e janeiro de 2023 para visualizar as melhorias com o algoritmo de escalabilidade gerenciada aprimorado em comparação com o algoritmo de escalabilidade gerenciada anterior.
Melhorias na utilização do cluster:
Para estimar as melhorias na utilização do cluster EMR com os aprimoramentos do EMR Managed Scaling, siga as etapas abaixo:
- Abra o console de métricas do CloudWatch e, em EMR, procure pelo seu
ClusterId
. - Na lista de métricas disponíveis para EMR, selecione a opção “YARNMemoryAvailablePercentage" métrica.
- Para derivar a memória utilizada pelo YARN, adicione uma expressão matemática como “Add Math → Start with empty expression”
- Para a nova expressão matemática, defina Rótulo=Utilização do Fio E definir Detalhes=100-YARNMemoryAvailablePercentage.
- Plote a métrica de utilização do cluster em seu painel do CloudWatch.
- Selecione o período de tempo de 3 meses entre novembro de 2022 e janeiro de 2023 para visualizar as melhorias com o algoritmo de escalabilidade gerenciada aprimorado em comparação com o algoritmo de escalabilidade gerenciada anterior.
Qual é o próximo
Continuaremos a ajustar o algoritmo do Managed Scaling a cada nova versão do EMR e, assim, melhorar a experiência do cliente ao dimensionar clusters com o EMR Managed Scaling.
Conclusão
Nesta postagem, fornecemos uma visão geral do principal aprimoramento que lançamos no EMR Managed Scaling. Com esses aprimoramentos, observamos que a utilização do cluster melhorou em até 15% e o custo do cluster foi reduzido em até 19%. A partir de meados de dezembro de 2022, esses aprimoramentos foram habilitados por padrão para clusters EMR usando Amazon EMR versões 5.34.0 e posteriores e Amazon EMR versões 6.4.0 e posteriores. Como o EMR Managed Scaling é um recurso totalmente gerenciado, você obterá o novo algoritmo otimizado de EMR Managed Scaling por padrão, e nenhuma ação é necessária de sua parte.
Para saber mais e começar a usar o EMR Managed Scaling, visite o Página de documentação do EMR Managed Scaling.
Sobre os autores
Sushant Majithia é gerente de produto principal para EMR na Amazon Web Services.
Vishal Vyas é engenheiro de software sênior para EMR na Amazon Web Services.
Mateus Liem é gerente sênior de arquitetura de soluções da AWS.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/big-data/reduce-amazon-emr-cluster-costs-by-up-to-19-with-new-enhancements-in-amazon-emr-managed-scaling/
- 2020
- 2022
- 2023
- 70
- 84
- a
- Açao Social
- Publicidade
- algoritmo
- Amazon
- Amazon EMR
- Amazon Web Services
- analítica
- e
- anunciou
- arquitetura
- automaticamente
- disponibilidade
- disponível
- AWS
- baseado
- abaixo
- MELHOR
- entre
- morada
- Capacidade
- Agrupar
- comparado
- completamente
- Computar
- cônsul
- constantemente
- continuar
- Custo
- economia de custos
- custos
- cliente
- experiência do cliente
- painel de instrumentos
- dados,
- Análise de Dados
- Dezembro
- Padrão
- down
- durante
- habilitado
- engenheiro
- aprimorada
- Empreendimento
- estimativa
- estimado
- Éter (ETH)
- Cada
- exemplos
- Executa
- existente
- vasta experiência
- Característica
- seguir
- seguinte
- QUADRO
- da
- mais distante
- Geral
- ter
- dado
- gradual
- fortemente
- ajudou
- Como funciona o dobrador de carta de canal
- HTML
- HTTPS
- inativo
- imediatamente
- melhorar
- melhorado
- melhorias
- in
- Nível intermediário
- IT
- janeiro
- Trabalho
- Empregos
- Kafka
- Chave
- lançado
- APRENDER
- aproveita as
- limites
- Lista
- olhou
- moldadas
- gerenciados
- Gerente
- matemática
- máximo
- Memória
- métrico
- Métrica
- mínimo
- monitores
- mês
- mais
- múltiplo
- necessário
- necessitando
- Novo
- nós
- Novembro
- número
- ideal
- otimizado
- Otimiza
- otimizando
- Visão geral
- por cento
- atuação
- períodos
- platão
- Inteligência de Dados Platão
- PlatãoData
- por favor
- Privacidade
- Publique
- impedindo
- anterior
- Diretor
- processo
- Produto
- gerente de produto
- Perfil
- fornecido
- reais
- em tempo real
- realizado
- reduzir
- Reduzido
- redução
- liberar
- solicitadas
- recurso
- Recursos
- Execute
- Poupança
- Escala
- aumento de escala
- dimensionamento
- Pesquisar
- senior
- Serviços
- conjunto
- Shows
- embaralhar
- semelhante
- Tamanho
- Software
- Engenheiro de Software
- solução
- alguns
- Faísca
- especificada
- começo
- começado
- Comece
- Passos
- loja
- Estratégia
- sucesso
- tal
- visadas
- Equipar
- A
- deles
- assim
- tempo
- para
- Total
- para
- unidade
- unidades
- atualização
- utilizado
- versão
- Ver
- web
- serviços web
- qual
- precisarão
- sem
- investimentos
- zefirnet