Verlaag de Amazon EMR-clusterkosten met tot wel 19% met nieuwe verbeteringen in Amazon EMR Managed Scaling

Verlaag de Amazon EMR-clusterkosten met tot wel 19% met nieuwe verbeteringen in Amazon EMR Managed Scaling

Bronknooppunt: 1985302

In juni 2020 kondigde AWS de algemene beschikbaarheid aan van Door Amazon EMR beheerd schalen. Met EMR Managed Scaling specificeer je de minimale en maximale rekenlimieten voor je clusters, en Amazon EMR past automatisch de grootte van je cluster aan voor optimale prestaties en resourcegebruik. EMR Managed Scaling bewaakt constant de belangrijkste werklastgerelateerde statistieken en gebruikt een algoritme dat de clustergrootte optimaliseert voor het beste gebruik van resources. Aangezien de functie volledig wordt beheerd, worden verbeteringen aan het algoritme onmiddellijk gerealiseerd zonder dat een versie-upgrade nodig is. Amazon EMR kan het cluster opschalen tijdens pieken en netjes afschalen tijdens inactieve periodes, waardoor uw kosten worden verlaagd en de clustercapaciteit wordt geoptimaliseerd voor de beste prestaties.

In 2022 hebben we meerdere verbeteringen aangebracht aan het EMR Managed Scaling-algoritme. Met deze verbeteringen hebben we vastgesteld dat voor clusters die zijn ingeschakeld met EMR Managed Scaling, het gebruik met maximaal 15 procent is verbeterd en de totale kosten verder zijn verlaagd met maximaal 19 procent. Vanaf medio december 2022 zijn EMR Managed Scaling-verbeteringen standaard ingeschakeld voor clusters die gebruikmaken van Amazon EMR-versies 5.34.0 en later en Amazon EMR-versies 6.4.0 en later voor zowel nieuwe als bestaande clusters. Aangezien de functie volledig wordt beheerd, krijgt u bovendien standaard het nieuwe, geoptimaliseerde Managed Scaling-algoritme en hoeft u niets te doen.

Hieronder staan ​​enkele van de belangrijkste verbeteringen die we hebben ingeschakeld voor EMR Managed Scaling:

  • Verbeterd clustergebruik met gerichte afschaling van uw EMR-cluster
  • Lagere kosten door te voorkomen dat instances die tussentijdse shuffle-gegevens opslaan, worden verkleind met behulp van Spark Shuffle-gegevensbewustzijn
  • Verbeterd clustergebruik en lagere kosten met geleidelijke opschaling van uw EMR-cluster

Succesverhalen van klanten

Hoe het verbeterde EMR Managed Scaling-algoritme een technologiebedrijf hielp kosten te verlagen:

Om de kostenbesparingen aan de hand van voorbeelden te illustreren, hebben we gekeken naar EMR-clusters voor een technologiebedrijf dat intensief gebruikmaakt van Amazon EMR om realtime factureringsgegevens tussen Kafka en S3 te verwerken met behulp van Spark. Ze voeren een persistent EMR-cluster uit met EMR-versie 5.35 en hebben EMR Managed Scaling ingeschakeld. Het volgende Amazon CloudWatch-dashboard laat zien hoe vanaf 21 december het verbeterde Managed Scaling-algoritme is ingericht (totaal aantal aangevraagde knooppunten) slechts 70 nodes versus het vorige Managed Scaling-algoritme dat 179 nodes voorzag voor een vergelijkbaar taakprofiel. Hoe lager het aantal resources dat is ingericht om uw taken uit te voeren, hoe lager de totale kosten van uw EMR-cluster.

Hoe het verbeterde EMR Managed Scaling-algoritme een advertentiebedrijf hielp kosten te besparen:

We hebben ook gekeken naar een EMR-cluster voor een advertentiebedrijf, dat Amazon EMR gebruikt voor hun data-analysestrategie en hun batch-ETL-taken uitvoert met Spark. Ze draaien hun clusters op EMR versie 6.5 en hebben EMR Managed Scaling ingeschakeld. Het volgende Amazon CloudWatch-dashboard laat zien hoe vanaf 15 december het verbeterde Managed Scaling-algoritme is ingericht (totale gevraagde eenheden) slechts 41 nodes versus het vorige Managed Scaling-algoritme dat 86 nodes voorzag voor een vergelijkbaar taakprofiel.

Schatting van de kostenbesparingen en gebruiksverbeteringen voor uw EMR-clusters:

Clusterkostenbesparingen:

Volg de onderstaande stappen om de geschatte kostenbesparingen voor uw EMR-cluster met de EMR Managed Scaling-verbeteringen te bekijken:

  • Open de CloudWatch-metrische console en onder EMR, zoek op jouw ClusterId.
  • Selecteer de volgende twee statistieken in de lijst met beschikbare statistieken voor EMR:
    • Lopende capaciteit – Op basis van het eenheidstype dat u hebt opgegeven in uw Managed Scaling-beleid, is dit beschikbaar als “TotaalEenhedenWordt uitgevoerd"Of"TotalNodesRunning"Of"TotaalVCPURunning"
    • Capaciteit aangevraagd door Managed Scaling – Op basis van het eenheidstype dat u hebt opgegeven in uw Managed Scaling-beleid, is dit beschikbaar als “TotaalEenhedenAangevraagd"Of"TotalNodesRequested"Of"TotaalVCPUGevraagd"
  •  Plot beide statistieken naar uw CloudWatch-dashboard.
  • Selecteer het tijdsbestek als de 3 maanden tussen november 2022 en januari 2023 om de verbeteringen te bekijken met het verbeterde Managed Scaling-algoritme in vergelijking met het vorige Managed Scaling-algoritme.

Verbeteringen in clustergebruik:

Volg de onderstaande stappen om de verbeteringen in uw EMR-clustergebruik met de EMR Managed Scaling-verbeteringen te schatten:

  • Open de CloudWatch metrics-console en, onder EMR, zoek op jouw ClusterId.
  • Selecteer in de lijst met statistieken die beschikbaar zijn voor EMR de optie "GARENGeheugenBeschikbaarPercentage” metriek.
  • Om geheugen af ​​te leiden dat wordt gebruikt door GAREN, voegt u een wiskundige uitdrukking toe, zoals "Wiskunde toevoegen → Begin met lege uitdrukking"
    • Stel in voor de nieuwe wiskundige uitdrukking Label=Garengebruik en instellen Details=100-YARNMemoryAvailablePercentage.
  • Zet de statistiek van het clustergebruik in uw CloudWatch-dashboard.
  • Selecteer het tijdsbestek als de 3 maanden tussen november 2022 en januari 2023 om de verbeteringen te bekijken met het verbeterde Managed Scaling-algoritme in vergelijking met het vorige Managed Scaling-algoritme.

Wat is het volgende

We zullen het Managed Scaling-algoritme blijven afstemmen met elke nieuwe EMR-release en daarmee de klantervaring verbeteren bij het schalen van clusters met EMR Managed Scaling.

Conclusie

In dit bericht hebben we een overzicht gegeven van de belangrijkste verbeteringen die we hebben geïntroduceerd in EMR Managed Scaling. Met deze verbeteringen hebben we vastgesteld dat het clustergebruik met maximaal 15 procent is verbeterd en dat de clusterkosten met maximaal 19 procent zijn verlaagd. Vanaf half december 2022 waren deze verbeteringen standaard ingeschakeld voor EMR-clusters met Amazon EMR-versies 5.34.0 en later, en Amazon EMR-versies 6.4.0 en later. Aangezien EMR Managed Scaling een volledig beheerde functie is, krijgt u standaard het nieuwe, geoptimaliseerde EMR Managed Scaling-algoritme en hoeft u niets te doen.

Ga voor meer informatie en om aan de slag te gaan met EMR Managed Scaling naar de EMR Managed Scaling-documentatiepagina.


Over de auteurs

Sushant Majithia is Principal Product Manager voor EMR bij Amazon Web Services.

 Vishal Vyas is een Senior Software Engineer voor EMR bij Amazon Web Services.

Matthijs Liem is Senior Solution Architecture Manager bij AWS.

Tijdstempel:

Meer van AWS-bigdata