Réduisez les coûts des clusters Amazon EMR jusqu'à 19 % grâce aux nouvelles améliorations d'Amazon EMR Managed Scaling

Réduisez les coûts des clusters Amazon EMR jusqu'à 19 % grâce aux nouvelles améliorations d'Amazon EMR Managed Scaling

Nœud source: 1985302

En juin 2020, AWS a annoncé la disponibilité générale de Mise à l'échelle gérée par Amazon EMR. Avec EMR Managed Scaling, vous spécifiez les limites de calcul minimales et maximales pour vos clusters, et Amazon EMR redimensionne automatiquement votre cluster pour des performances et une utilisation des ressources optimales. EMR Managed Scaling surveille en permanence les mesures clés liées à la charge de travail et utilise un algorithme qui optimise la taille du cluster pour une meilleure utilisation des ressources. Étant donné que la fonctionnalité est entièrement gérée, les améliorations de l'algorithme sont immédiatement réalisées sans nécessiter de mise à niveau de version. Amazon EMR peut faire évoluer le cluster pendant les pics et le réduire progressivement pendant les périodes d'inactivité, réduisant ainsi vos coûts et optimisant la capacité du cluster pour des performances optimales.

Tout au long de 2022, nous avons apporté plusieurs améliorations à l'algorithme EMR Managed Scaling. Grâce à ces améliorations, nous avons observé que pour les clusters activés avec EMR Managed Scaling, l'utilisation s'améliorait jusqu'à 15 % et les coûts totaux étaient encore réduits jusqu'à 19 %. Depuis la mi-décembre 2022, les améliorations EMR Managed Scaling ont été activées par défaut pour les clusters utilisant Amazon EMR versions 5.34.0 et ultérieures et Amazon EMR versions 6.4.0 et ultérieures pour les clusters nouveaux et existants. De plus, étant donné que la fonctionnalité est entièrement gérée, vous obtiendrez le nouvel algorithme optimisé de mise à l'échelle gérée par défaut, et aucune action n'est nécessaire de votre côté.

Voici quelques-unes des principales améliorations que nous avons activées pour EMR Managed Scaling :

  • Utilisation améliorée du cluster avec réduction ciblée de votre cluster EMR
  • Réduction des coûts en empêchant la réduction des instances qui stockent les données de mélange intermédiaire à l'aide Sensibilisation aux données Spark Shuffle
  • Utilisation améliorée du cluster et réduction des coûts grâce à une mise à l'échelle progressive de votre cluster EMR

Témoignages de clients

Comment l'algorithme EMR Managed Scaling amélioré a aidé une entreprise technologique à réduire ses coûts :

Pour illustrer les économies de coûts par des exemples, nous avons examiné un cluster EMR pour une entreprise technologique, qui utilise fortement Amazon EMR pour traiter les données de facturation en temps réel entre Kafka et S3 à l'aide de Spark. Ils exécutent un cluster EMR persistant avec EMR version 5.35 et ont activé EMR Managed Scaling. Le tableau de bord Amazon CloudWatch suivant montre comment, à partir du 21 décembre, l'algorithme amélioré de mise à l'échelle gérée a provisionné (nombre total de nœuds demandés) seulement 70 nœuds par rapport à l'algorithme précédent de mise à l'échelle gérée qui provisionnait 179 nœuds pour un profil de travail similaire. Plus le nombre de ressources provisionnées pour exécuter vos tâches est faible, plus le coût total de votre cluster EMR est faible.

Comment l'algorithme EMR Managed Scaling amélioré a aidé une entreprise publicitaire à réduire ses coûts :

Nous avons également examiné un cluster EMR pour une entreprise de publicité, qui exploite Amazon EMR pour sa stratégie d'analyse de données et exécute ses tâches ETL par lots à l'aide de Spark. Ils exécutent leurs clusters sur EMR version 6.5 et ont activé EMR Managed Scaling. Le tableau de bord Amazon CloudWatch suivant montre comment, à partir du 15 décembre, l'algorithme amélioré de mise à l'échelle gérée a provisionné (nombre total d'unités demandées) seulement 41 nœuds par rapport à l'algorithme précédent de mise à l'échelle gérée qui provisionnait 86 nœuds pour un profil de travail similaire.

Estimation des économies de coûts et des améliorations d'utilisation pour vos clusters EMR :

Économies sur les coûts du cluster :

Pour afficher les économies de coûts estimées pour votre cluster EMR avec les améliorations EMR Managed Scaling, veuillez suivre les étapes ci-dessous :

  • Ouvrez le Console de métriques CloudWatch et sous EMR, recherchez par votre ClusterId.
  • Dans la liste des métriques disponibles pour EMR, sélectionnez les deux métriques suivantes :
    • Capacité de fonctionnement – En fonction du type d'unité que vous avez spécifié dans votre stratégie de mise à l'échelle gérée, cela sera disponible en tant que "Nombre total d'unités en cours d'exécution" ou "Total des nœuds en cours d'exécutionouTotalVCPURen cours d'exécution »
    • Capacité demandée par Managed Scaling – En fonction du type d'unité que vous avez spécifié dans votre stratégie de mise à l'échelle gérée, cela sera disponible en tant que "Unités totales demandées" ou "TotalNœudsDemandésouTotalVCPUDemandé »
  •  Tracez les deux métriques sur votre tableau de bord CloudWatch.
  • Sélectionnez la période de 3 mois entre novembre 2022 et janvier 2023 pour voir les améliorations avec l'algorithme de mise à l'échelle géré amélioré par rapport à l'algorithme de mise à l'échelle géré précédent.

Améliorations de l'utilisation du cluster :

Pour estimer les améliorations de l'utilisation de votre cluster EMR avec les améliorations EMR Managed Scaling, veuillez suivre les étapes ci-dessous :

  • Ouvrez la console de métriques CloudWatch et, sous EMR, recherchez par votre ClusterId.
  • Dans la liste des mesures disponibles pour EMR, sélectionnez le "YARNMemoryAvailablePercentage » métrique.
  • Pour dériver la mémoire utilisée par YARN, ajoutez une expression mathématique telle que "Add Math → Start with empty expression"
    • Pour la nouvelle expression mathématique, définissez Label=Utilisation du fil Et définir Détails = 100-YARNMemoryAvailablePercentage.
  • Tracez la métrique d'utilisation du cluster sur votre tableau de bord CloudWatch.
  • Sélectionnez la période de 3 mois entre novembre 2022 et janvier 2023 pour voir les améliorations avec l'algorithme de mise à l'échelle géré amélioré par rapport à l'algorithme de mise à l'échelle géré précédent.

Et après

Nous continuerons à ajuster l'algorithme de mise à l'échelle gérée avec chaque nouvelle version d'EMR et améliorerons ainsi l'expérience client lors de la mise à l'échelle des clusters avec EMR Managed Scaling.

Conclusion

Dans cet article, nous avons fourni un aperçu de l'amélioration clé que nous avons lancée dans EMR Managed Scaling. Grâce à ces améliorations, nous avons observé que l'utilisation du cluster s'est améliorée jusqu'à 15 % et que le coût du cluster a été réduit jusqu'à 19 %. Depuis la mi-décembre 2022, ces améliorations ont été activées par défaut pour les clusters EMR utilisant Amazon EMR versions 5.34.0 et ultérieures, et Amazon EMR versions 6.4.0 et ultérieures. Étant donné que EMR Managed Scaling est une fonctionnalité entièrement gérée, vous obtiendrez par défaut le nouvel algorithme EMR Managed Scaling optimisé, et aucune action n'est nécessaire de votre part.

Pour en savoir plus et démarrer avec EMR Managed Scaling, visitez le Page de documentation EMR Managed Scaling.


À propos des auteurs

Sushant Majithia est chef de produit principal pour EMR chez Amazon Web Services.

 Vishal Vyas est ingénieur logiciel senior pour EMR chez Amazon Web Services.

Matthieu Liem est Senior Solution Architecture Manager chez AWS.

Horodatage:

Plus de Big Data AWS