Reduser Amazon EMR-klyngekostnadene med opptil 19 % med nye forbedringer i Amazon EMR Managed Scaling

Reduser Amazon EMR-klyngekostnadene med opptil 19 % med nye forbedringer i Amazon EMR Managed Scaling

Kilde node: 1985302

I juni 2020 kunngjorde AWS den generelle tilgjengeligheten av Amazon EMR Managed Scaling. Med EMR Managed Scaling angir du minimum og maksimum beregningsgrenser for klyngene dine, og Amazon EMR endrer automatisk størrelsen på klyngen for optimal ytelse og ressursutnyttelse. EMR Managed Scaling overvåker konstant viktige arbeidsbelastningsrelaterte beregninger og bruker en algoritme som optimerer klyngestørrelsen for best mulig ressursutnyttelse. Gitt at funksjonen er fullstendig administrert, blir forbedringer av algoritmen umiddelbart realisert uten behov for en versjonsoppgradering. Amazon EMR kan skalere klyngen opp under topper og skalere den elegant ned under inaktive perioder, redusere kostnadene og optimalisere klyngekapasiteten for best ytelse.

Gjennom 2022 har vi gjort flere forbedringer av EMR Managed Scaling-algoritmen. Med disse forbedringene observerte vi at for klynger aktivert med EMR Managed Scaling, ble utnyttelsen forbedret med opptil 15 prosent, og de totale kostnadene ble ytterligere redusert med opptil 19 prosent. Fra midten av desember 2022 ble EMR Managed Scaling-forbedringer aktivert som standard for klynger som bruker Amazon EMR versjoner 5.34.0 og nyere og Amazon EMR versjoner 6.4.0 og senere for både nye og eksisterende klynger. Videre, gitt at funksjonen er fullstendig administrert, vil du få den nye optimaliserte administrerte skaleringsalgoritmen som standard, og ingen handling er nødvendig fra din side.

Nedenfor er noen av de viktigste forbedringene vi aktivert for EMR Managed Scaling:

  • Forbedret klyngeutnyttelse med målrettet nedskalering av EMR-klyngen
  • Reduserte kostnader ved å forhindre nedskalering av forekomster som lagrer mellomliggende shuffle-data ved hjelp av Spark Shuffle databevissthet
  • Forbedret klyngeutnyttelse og reduser kostnader med gradvis oppskalering av EMR-klyngen

Omtale fra kunder

Hvordan den forbedrede EMR Managed Scaling-algoritmen hjalp en teknologibedrift med å redusere kostnadene:

For å illustrere kostnadsbesparelsene med eksempler, så vi på en EMR-klynger for en teknologibedrift, som i stor grad bruker Amazon EMR for å behandle sanntidsfaktureringsdata mellom Kafka og S3 ved å bruke Spark. De kjører en vedvarende EMR-klynge med EMR versjon 5.35 og har EMR Managed Scaling slått på. Følgende Amazon CloudWatch-dashbord viser hvordan den forbedrede administrerte skaleringsalgoritmen fra og med 21. desember klargjorde (totale noder forespurt) bare 70 noder vs. den forrige Managed Scaling-algoritmen som ga 179 noder for en lignende jobbprofil. Jo lavere antall ressurser som er klargjort for å kjøre jobbene dine, desto lavere blir den totale kostnaden for EMR-klyngen.

Hvordan den forbedrede EMR Managed Scaling-algoritmen hjalp en reklamebedrift med å redusere kostnadene:

Vi så også på en EMR-klynge for en reklamebedrift, som utnytter Amazon EMR for sin dataanalysestrategi og utfører sine batch-ETL-jobber ved hjelp av Spark. De kjører klynger på EMR versjon 6.5 og har EMR Managed Scaling slått på. Følgende Amazon CloudWatch-dashbord viser hvordan den forbedrede administrerte skaleringsalgoritmen fra og med 15. desember klargjorde (totale enheter forespurt) bare 41 noder vs. den forrige Managed Scaling-algoritmen som ga 86 noder for en lignende jobbprofil.

Estimering av kostnadsbesparelser og utnyttelsesforbedringer for EMR-klyngene dine:

Klyngekostnadsbesparelser:

For å se estimerte kostnadsbesparelser for EMR-klyngen din med EMR Managed Scaling-forbedringer, følg trinnene nedenfor:

  • Åpne CloudWatch metrikk-konsoll og under EPJ, søk etter din ClusterId.
  • Velg følgende to beregninger fra listen over tilgjengelige beregninger for EMR:
    • Løpekapasitet – Basert på enhetstypen du spesifiserte i policyen din for administrert skalering, vil denne være tilgjengelig som enten "TotalUnitsRunning”Eller“TotalNodesRunning"Eller"TotalVCPUR i gang"
    • Kapasitet forespurt av Managed Scaling – Basert på enhetstypen du spesifiserte i policyen din for administrert skalering, vil denne være tilgjengelig som enten "TotalUnitsRequested”Eller“TotalNodesRequested"Eller"TotalVCPURequested"
  •  Plott begge beregningene til CloudWatch-dashbordet.
  • Velg tidsrammen som 3 måneder mellom november 2022 og januar 2023 for å se forbedringene med den forbedrede administrerte skaleringsalgoritmen sammenlignet med den forrige administrerte skaleringsalgoritmen.

Forbedringer i klyngebruk:

For å estimere forbedringene i EMR-klyngebruken din med EMR Managed Scaling-forbedringer, følg trinnene nedenfor:

  • Åpne CloudWatch-målekonsollen og under EPJ, søk etter din ClusterId.
  • Fra listen over tilgjengelige beregninger for EMR, velg "GARNMinneTilgjengelig prosentandel” beregning.
  • For å utlede minne brukt av YARN, legg til et matematisk uttrykk som "Legg til matematikk → Start med tomt uttrykk"
    • For det nye matematiske uttrykket, sett Label=Garnutnyttelse og sett Detaljer=100-YARNMemoryAvailablePercentage.
  • Plott klyngebruksberegningen til CloudWatch-dashbordet.
  • Velg tidsrammen som 3 måneder mellom november 2022 og januar 2023 for å se forbedringene med den forbedrede administrerte skaleringsalgoritmen sammenlignet med den forrige administrerte skaleringsalgoritmen.

Hva blir det neste

Vi vil fortsette å finjustere Managed Scaling-algoritmen med hver nye EMR-utgivelse og dermed forbedre kundeopplevelsen når vi skalerer klynger med EMR Managed Scaling.

konklusjonen

I dette innlegget ga vi en oversikt over nøkkelforbedringen vi lanserte i EMR Managed Scaling. Med disse forbedringene observerte vi at klyngeutnyttelsen ble forbedret med opptil 15 prosent, og klyngekostnadene ble redusert med opptil 19 prosent. Fra midten av desember 2022 ble disse forbedringene aktivert som standard for EMR-klynger som bruker Amazon EMR versjoner 5.34.0 og nyere, og Amazon EMR versjoner 6.4.0 og nyere. Gitt at EMR Managed Scaling er en fullstendig administrert funksjon, vil du få den nye, optimaliserte EMR Managed Scaling-algoritmen som standard, og ingen handling er nødvendig fra din side.

For å lære mer og komme i gang med EMR Managed Scaling, besøk Dokumentasjonsside for EMR Managed Scaling.


Om forfatterne

Sushant Majithia er hovedproduktsjef for EMR hos Amazon Web Services.

 Vishal Vyas er senior programvareingeniør for EMR hos Amazon Web Services.

Matthew Liem er Senior Solution Architecture Manager hos AWS.

Tidstempel:

Mer fra AWS Big Data