Minska Amazon EMR-klusterkostnader med upp till 19 % med nya förbättringar i Amazon EMR Managed Scaling

Minska Amazon EMR-klusterkostnader med upp till 19 % med nya förbättringar i Amazon EMR Managed Scaling

Källnod: 1985302

I juni 2020 tillkännagav AWS den allmänna tillgängligheten av Amazon EMR Managed Scaling. Med EMR Managed Scaling anger du de lägsta och högsta beräkningsgränserna för dina kluster, och Amazon EMR ändrar automatiskt storleken på ditt kluster för optimal prestanda och resursanvändning. EMR Managed Scaling övervakar ständigt viktiga arbetsbelastningsrelaterade mätvärden och använder en algoritm som optimerar klusterstorleken för bästa resursutnyttjande. Med tanke på att funktionen är helt hanterad, realiseras förbättringar av algoritmen omedelbart utan att behöva en versionsuppgradering. Amazon EMR kan skala upp klustret under toppar och skala ner det elegant under inaktiva perioder, vilket minskar dina kostnader och optimerar klusterkapaciteten för bästa prestanda.

Under 2022 gjorde vi flera förbättringar av EMR Managed Scaling-algoritmen. Med dessa förbättringar observerade vi att för kluster aktiverade med EMR Managed Scaling, förbättrades utnyttjandet med upp till 15 procent och de totala kostnaderna minskade ytterligare med upp till 19 procent. Från och med mitten av december 2022 aktiverades EMR Managed Scaling-förbättringar som standard för kluster som använder Amazon EMR version 5.34.0 och senare och Amazon EMR version 6.4.0 och senare för både nya och befintliga kluster. Dessutom, med tanke på att funktionen är helt hanterad, kommer du att få den nya optimerade hanterade skalningsalgoritmen som standard, och ingen åtgärd behövs från din sida.

Nedan listas några av de viktigaste förbättringarna vi aktiverade för EMR Managed Scaling:

  • Förbättrat klusteranvändning med riktad nedskalning av ditt EMR-kluster
  • Minskade kostnader genom att förhindra nedskalning av instanser som lagrar mellanliggande shuffle-data med hjälp av Spark Shuffle datamedvetenhet
  • Förbättrat klusteranvändning och minska kostnaderna med gradvis uppskalning av ditt EMR-kluster

Kundernas framgångsberättelser

Hur den förbättrade EMR Managed Scaling-algoritmen hjälpte ett teknikföretag att minska kostnaderna:

För att illustrera kostnadsbesparingarna med exempel tittade vi på ett EMR-kluster för ett teknikföretag, som flitigt använder Amazon EMR för att bearbeta realtidsfaktureringsdata mellan Kafka och S3 med Spark. De kör ett beständigt EMR-kluster med EMR version 5.35 och har EMR Managed Scaling aktiverat. Följande Amazon CloudWatch-instrumentpanel visar hur den förbättrade Managed Scaling-algoritmen från och med den 21 december tillhandahålls (totala noder begärda) endast 70 noder jämfört med den tidigare Managed Scaling-algoritmen som tillhandahållit 179 noder för en liknande jobbprofil. Ju lägre antal resurser som tillhandahålls för att driva dina jobb, desto lägre blir den totala kostnaden för ditt EMR-kluster.

Hur den förbättrade EMR Managed Scaling-algoritmen hjälpte ett reklamföretag att minska kostnaderna:

Vi tittade också på ett EMR-kluster för ett reklamföretag, som utnyttjar Amazon EMR för sin dataanalysstrategi och utför sina batch-ETL-jobb med Spark. De kör sina kluster på EMR version 6.5 och har EMR Managed Scaling aktiverat. Följande Amazon CloudWatch-instrumentpanel visar hur den förbättrade Managed Scaling-algoritmen från och med den 15 december tillhandahåller (totala antalet begärda enheter) endast 41 noder jämfört med den tidigare Managed Scaling-algoritmen som tillhandahållit 86 noder för en liknande jobbprofil.

Uppskattning av kostnadsbesparingar och användningsförbättringar för dina EMR-kluster:

Klusterkostnadsbesparingar:

För att se uppskattade kostnadsbesparingar för ditt EMR-kluster med EMR Managed Scaling-förbättringarna, följ stegen nedan:

  • Öppna CloudWatch-mätningskonsol och under EMR, sök efter din ClusterId.
  • Välj följande två mätvärden från listan över tillgängliga mätvärden för EMR:
    • Körkapacitet – Baserat på den enhetstyp du angav i din Managed Scaling-policy, kommer denna att vara tillgänglig som antingen "TotalUnitsRunning”Eller”TotalNodesRunning"Eller"TotalVCPURkörning"
    • Kapacitet efterfrågad av Managed Scaling – Baserat på den enhetstyp du angav i din Managed Scaling-policy, kommer denna att vara tillgänglig som antingen "TotalUnitsRequested”Eller”TotalNodesRequested"Eller"TotalVCPURequested"
  •  Rita båda mätvärdena på din CloudWatch-instrumentpanel.
  • Välj tidsramen som 3 månader mellan november 2022 och januari 2023 för att se förbättringarna med den förbättrade algoritmen för hanterad skalning jämfört med den tidigare algoritmen för hanterad skalning.

Förbättringar av klusteranvändning:

För att uppskatta förbättringarna i ditt EMR-klusteranvändning med EMR Managed Scaling-förbättringar, följ stegen nedan:

  • Öppna CloudWatch-mätningskonsolen och under EMR, sök efter din ClusterId.
  • Från listan över tillgängliga mätvärden för EMR, välj "GARNminneTillgängligtProcent” metrisk.
  • För att härleda minne som används av YARN, lägg till ett matematiskt uttryck som "Lägg till matematik → Börja med tomt uttryck"
    • För det nya matematiska uttrycket, ställ in Label=Garnutnyttjande och ställa in Detaljer=100-YARNMemoryAvailablePercentage.
  • Rita mätvärdet för klusteranvändning till din CloudWatch-instrumentpanel.
  • Välj tidsramen som 3 månader mellan november 2022 och januari 2023 för att se förbättringarna med den förbättrade algoritmen för hanterad skalning jämfört med den tidigare algoritmen för hanterad skalning.

Vad kommer härnäst

Vi kommer att fortsätta att finjustera Managed Scaling-algoritmen med varje ny EMR-release och därigenom förbättra kundupplevelsen när vi skalar kluster med EMR Managed Scaling.

Slutsats

I det här inlägget gav vi en översikt över den viktigaste förbättringen vi lanserade i EMR Managed Scaling. Med dessa förbättringar observerade vi att klusteranvändningen förbättrades med upp till 15 procent och klusterkostnaden minskade med upp till 19 procent. Från och med mitten av december 2022 var dessa förbättringar aktiverade som standard för EMR-kluster som använder Amazon EMR-versioner 5.34.0 och senare, och Amazon EMR-versioner 6.4.0 och senare. Med tanke på att EMR Managed Scaling är en helt hanterad funktion kommer du att få den nya, optimerade EMR Managed Scaling-algoritmen som standard, och ingen åtgärd behövs från din sida.

För att lära dig mer och komma igång med EMR Managed Scaling, besök Dokumentationssida för EMR Managed Scaling.


Om författarna

Sushant Majithia är en huvudproduktchef för EMR på Amazon Web Services.

 Vishal Vyas är senior mjukvaruingenjör för EMR på Amazon Web Services.

Matthew Liem är Senior Solution Architecture Manager på AWS.

Tidsstämpel:

Mer från AWS Big Data