Reducer Amazon EMR-klyngeomkostninger med op til 19 % med nye forbedringer i Amazon EMR Managed Scaling

Reducer Amazon EMR-klyngeomkostninger med op til 19 % med nye forbedringer i Amazon EMR Managed Scaling

Kildeknude: 1985302

I juni 2020 annoncerede AWS den generelle tilgængelighed af Amazon EMR Managed Scaling. Med EMR Managed Scaling angiver du minimum og maksimum beregningsgrænser for dine klynger, og Amazon EMR ændrer automatisk størrelsen på din klynge for optimal ydeevne og ressourceudnyttelse. EMR Managed Scaling overvåger konstant vigtige arbejdsbelastningsrelaterede målinger og bruger en algoritme, der optimerer klyngestørrelsen for den bedste ressourceudnyttelse. Da funktionen er fuldstændig administreret, realiseres forbedringer af algoritmen øjeblikkeligt uden behov for en versionsopgradering. Amazon EMR kan skalere klyngen op under spidsbelastninger og nedskalere den yndefuldt i inaktive perioder, hvilket reducerer dine omkostninger og optimerer klyngekapaciteten for den bedste ydeevne.

I løbet af 2022 lavede vi flere forbedringer af EMR Managed Scaling-algoritmen. Med disse forbedringer observerede vi, at for klynger aktiveret med EMR Managed Scaling, blev udnyttelsen forbedret med op til 15 procent, og de samlede omkostninger blev reduceret yderligere med op til 19 procent. Fra midten af ​​december 2022 blev EMR Managed Scaling-forbedringer aktiveret som standard for klynger, der bruger Amazon EMR version 5.34.0 og nyere og Amazon EMR version 6.4.0 og nyere for både nye og eksisterende klynger. Da funktionen er fuldstændig administreret, vil du desuden få den nye optimerede administrerede skaleringsalgoritme som standard, og du behøver ikke at foretage dig noget.

Nedenfor er nogle af de vigtigste forbedringer, vi aktiverede for EMR Managed Scaling:

  • Forbedret klyngeudnyttelse med målrettet nedskalering af din EMR-klynge
  • Reducerede omkostninger ved at forhindre nedskalering af forekomster, der lagrer mellemliggende shuffle-data ved hjælp af Spark Shuffle-databevidsthed
  • Forbedret klyngeudnyttelse og reducere omkostningerne med gradvis opskalering af din EMR-klynge

Kundes succeshistorier

Hvordan den forbedrede EMR Managed Scaling-algoritme hjalp en teknologivirksomhed med at reducere omkostningerne:

For at illustrere omkostningsbesparelserne med eksempler, så vi på en EMR-klynger for en teknologivirksomhed, som i høj grad bruger Amazon EMR til at behandle faktureringsdata i realtid mellem Kafka og S3 ved hjælp af Spark. De kører en vedvarende EMR-klynge med EMR version 5.35 og har EMR Managed Scaling slået til. Følgende Amazon CloudWatch-dashboard viser, hvordan den forbedrede Managed Scaling-algoritme fra den 21. december klargjorde (samlede noder anmodet) kun 70 noder i forhold til den tidligere Managed Scaling-algoritme, som leverede 179 noder til en lignende jobprofil. Jo lavere antal ressourcer, der er klargjort til at køre dine jobs, jo lavere er de samlede omkostninger for din EMR-klynge.

Hvordan den forbedrede EMR Managed Scaling-algoritme hjalp en reklamevirksomhed med at reducere omkostningerne:

Vi så også på en EMR-klynge for en reklamevirksomhed, som udnytter Amazon EMR til deres dataanalysestrategi og udfører deres batch ETL-job ved hjælp af Spark. De kører deres klynger på EMR version 6.5 og har EMR Managed Scaling slået til. Følgende Amazon CloudWatch-dashboard viser, hvordan den forbedrede Managed Scaling-algoritme fra den 15. december klargjorde (samlede ønskede enheder) kun 41 noder i forhold til den tidligere Managed Scaling-algoritme, som leverede 86 noder til en lignende jobprofil.

Estimering af omkostningsbesparelser og udnyttelsesforbedringer for dine EMR-klynger:

Klyngeomkostningsbesparelser:

Følg nedenstående trin for at se anslåede omkostningsbesparelser for din EMR-klynge med EMR Managed Scaling-forbedringer:

  • Åbne CloudWatch metrics-konsol og under EMR, søg på din ClusterId.
  • Fra listen over tilgængelige metrics for EMR skal du vælge følgende to metrics:
    • Løbekapacitet – Baseret på den enhedstype, du har angivet i din Managed Scaling-politik, vil denne være tilgængelig som enten "TotalUnitsRunning”Eller“TotalNodesRunning"Eller"TotalVCPUR i gang"
    • Kapacitet anmodet af Managed Scaling – Baseret på den enhedstype, du har angivet i din Managed Scaling-politik, vil denne være tilgængelig som enten "TotalEnhederAnmodet”Eller“TotalNodesRequested"Eller"TotalVCPURequested"
  •  Plot begge metrics til dit CloudWatch-dashboard.
  • Vælg tidsrammen som 3 måneder mellem november 2022 og januar 2023 for at se forbedringerne med den forbedrede Managed Scaling-algoritme sammenlignet med den tidligere Managed Scaling-algoritme.

Forbedringer af klyngeudnyttelse:

For at estimere forbedringerne i din EMR-klyngeudnyttelse med EMR Managed Scaling-forbedringer, skal du følge nedenstående trin:

  • Åbn CloudWatch-metrics-konsollen og under EMR, søg på din ClusterId.
  • Fra listen over tilgængelige metrics for EMR skal du vælge "YARNMemoryAvailablePercentage" metrisk.
  • For at udlede hukommelse, der bruges af YARN, skal du tilføje et matematisk udtryk såsom "Tilføj matematik → Start med tomt udtryk"
    • Indstil for det nye matematiske udtryk Label=Garnudnyttelse og sæt Detaljer=100-YARNMemoryAvailablePercentage.
  • Plot måleværdien for klyngeudnyttelse til dit CloudWatch-dashboard.
  • Vælg tidsrammen som 3 måneder mellem november 2022 og januar 2023 for at se forbedringerne med den forbedrede Managed Scaling-algoritme sammenlignet med den tidligere Managed Scaling-algoritme.

Hvad er næste?

Vi vil fortsætte med at tune Managed Scaling-algoritmen med hver ny EMR-udgivelse og derved forbedre kundeoplevelsen ved skalering af klynger med EMR Managed Scaling.

Konklusion

I dette indlæg gav vi et overblik over den vigtigste forbedring, vi lancerede i EMR Managed Scaling. Med disse forbedringer observerede vi, at klyngeudnyttelsen blev forbedret med op til 15 procent, og klyngeomkostningerne blev reduceret med op til 19 procent. Fra midten af ​​december 2022 blev disse forbedringer aktiveret som standard for EMR-klynger, der bruger Amazon EMR-versioner 5.34.0 og nyere, og Amazon EMR-versioner 6.4.0 og nyere. Da EMR Managed Scaling er en fuldstændig administreret funktion, vil du som standard få den nye, optimerede EMR Managed Scaling-algoritme, og du behøver ikke at foretage dig noget.

For at lære mere og komme i gang med EMR Managed Scaling, besøg Dokumentationsside for EMR Managed Scaling.


Om forfatterne

Sushant Majithia er hovedproduktchef for EMR hos Amazon Web Services.

 Vishal Vyas er Senior Software Engineer for EMR hos Amazon Web Services.

Matthew Liem er Senior Solution Architecture Manager hos AWS.

Tidsstempel:

Mere fra AWS Big Data