Zmanjšajte stroške gruče Amazon EMR do 19 % z novimi izboljšavami v Amazon EMR Managed Scaling

Zmanjšajte stroške gruče Amazon EMR do 19 % z novimi izboljšavami v Amazon EMR Managed Scaling

Izvorno vozlišče: 1985302

Junija 2020 je AWS objavil splošno razpoložljivost Upravljano skaliranje Amazon EMR. Z EMR Managed Scaling določite najnižje in največje računske omejitve za vaše gruče, Amazon EMR pa samodejno spremeni velikost vaše gruče za optimalno zmogljivost in izrabo virov. EMR Managed Scaling nenehno spremlja ključne meritve, povezane z delovno obremenitvijo, in uporablja algoritem, ki optimizira velikost gruče za najboljšo uporabo virov. Glede na to, da je funkcija popolnoma upravljana, so izboljšave algoritma uresničene takoj, ne da bi bila potrebna nadgradnja različice. Amazon EMR lahko poveča gručo med konicami in jo elegantno zmanjša v obdobjih mirovanja, s čimer zmanjša vaše stroške in optimizira zmogljivost gruče za najboljšo zmogljivost.

Skozi leto 2022 smo naredili več izboljšav algoritma EMR Managed Scaling. S temi izboljšavami smo opazili, da se je za gruče, omogočene z EMR Managed Scaling, izkoriščenost izboljšala za do 15 odstotkov, skupni stroški pa so se dodatno znižali za do 19 odstotkov. Od sredine decembra 2022 so bile izboljšave EMR Managed Scaling privzeto omogočene za gruče, ki uporabljajo Amazon EMR različice 5.34.0 in novejše ter Amazon EMR različice 6.4.0 in novejše za nove in obstoječe gruče. Nadalje, glede na to, da je funkcija v celoti upravljana, boste privzeto prejeli nov optimiziran algoritem upravljanega skaliranja in vam ni treba storiti ničesar.

Spodaj je navedenih nekaj ključnih izboljšav, ki smo jih omogočili za EMR Managed Scaling:

  • Izboljšana uporaba gruče s ciljnim zmanjšanjem gruče EMR
  • Zmanjšani stroški s preprečevanjem pomanjšanja primerkov, ki shranjujejo vmesne naključne podatke z uporabo Zavedanje podatkov Spark Shuffle
  • Izboljšana uporaba gruče in zmanjšanje stroškov s postopno širitvijo vaše gruče EMR

Zgodbe o uspehu strank

Kako je izboljšan algoritem EMR Managed Scaling pomagal tehnološkemu podjetju zmanjšati stroške:

Za ponazoritev prihranka pri stroških s primeri smo si ogledali gruče EMR za tehnološko podjetje, ki močno uporablja Amazon EMR za obdelavo podatkov o zaračunavanju v realnem času med Kafko in S3 s pomočjo Spark. Poganjajo trajno gručo EMR z različico EMR 5.35 in imajo vklopljeno EMR upravljano skaliranje. Naslednja nadzorna plošča Amazon CloudWatch prikazuje, kako je izboljšani algoritem za upravljano skaliranje od 21. decembra zagotavljal (skupaj zahtevanih vozlišč) samo 70 vozlišč v primerjavi s prejšnjim algoritmom upravljanega skaliranja, ki je zagotavljal 179 vozlišč za podoben profil opravila. Manjše kot je število virov, ki so na voljo za izvajanje vaših opravil, nižji so skupni stroški vaše gruče EMR.

Kako je izboljšani algoritem EMR Managed Scaling oglaševalskemu podjetju pomagal zmanjšati stroške:

Ogledali smo si tudi gručo EMR za oglaševalsko podjetje, ki izkorišča Amazon EMR za njihovo strategijo podatkovne analize in izvaja njihova paketna opravila ETL s pomočjo Spark. Svoje gruče izvajajo v različici EMR 6.5 in imajo vklopljeno EMR Managed Scaling. Naslednja nadzorna plošča Amazon CloudWatch prikazuje, kako je od 15. decembra izboljšani algoritem upravljanega skaliranja zagotavljal (skupaj zahtevanih enot) samo 41 vozlišč v primerjavi s prejšnjim algoritmom upravljanega skaliranja, ki je zagotavljal 86 vozlišč za podoben profil opravila.

Ocenjevanje prihrankov stroškov in izboljšav uporabe za vaše gruče EMR:

Prihranek stroškov grozda:

Če si želite ogledati ocenjene prihranke stroškov za vašo gručo EMR z izboljšavami EMR Managed Scaling, sledite spodnjim korakom:

  • odprite Konzola za meritve CloudWatch in pod EMS, išči po svojem ClusterId.
  • Na seznamu meritev, ki so na voljo za EMR, izberite naslednji dve meritvi:
    • Tekaška zmogljivost – Glede na vrsto enote, ki ste jo določili v pravilniku o upravljanem skaliranju, bo to na voljo kot »TotalUnitsRunning"Ali"TotalNodesRunning"Ali"TotalVCPURunning"
    • Zmogljivost, ki jo zahteva upravljano skaliranje – Glede na vrsto enote, ki ste jo določili v pravilniku o upravljanem skaliranju, bo to na voljo kot »TotalUnitsRequested"Ali"TotalNodesRequested"Ali"TotalVCPURequested"
  •  Narišite obe meritvi na nadzorno ploščo CloudWatch.
  • Izberite časovni okvir kot 3 mesece med novembrom 2022 in januarjem 2023, da si ogledate izboljšave z izboljšanim algoritmom upravljanega skaliranja v primerjavi s prejšnjim algoritmom upravljanega skaliranja.

Izboljšave uporabe gruče:

Če želite oceniti izboljšave v uporabi vaše gruče EMR z izboljšavami EMR Managed Scaling, sledite spodnjim korakom:

  • Odprite konzolo z metrikami CloudWatch in pod EMS, išči po svojem ClusterId.
  • Na seznamu meritev, ki so na voljo za EMR, izberite »YARNMemoryAvailablePercentage” metrična.
  • Če želite izpeljati pomnilnik, ki ga uporablja YARN, dodajte matematični izraz, kot je »Dodaj matematiko → Začni s praznim izrazom«
    • Za nov matematični izraz nastavite Oznaka=Uporaba preje in nastavite Podrobnosti=100-YARNMemoryAvailablePercentage.
  • Narišite metriko uporabe gruče na nadzorno ploščo CloudWatch.
  • Izberite časovni okvir kot 3 mesece med novembrom 2022 in januarjem 2023, da si ogledate izboljšave z izboljšanim algoritmom upravljanega skaliranja v primerjavi s prejšnjim algoritmom upravljanega skaliranja.

Kaj je naslednje

Še naprej bomo prilagajali algoritem upravljanega skaliranja z vsako novo izdajo EMR in s tem izboljšali uporabniško izkušnjo pri skaliranju gruč z upravljanim skaliranjem EMR.

zaključek

V tej objavi smo podali pregled ključne izboljšave, ki smo jo uvedli v EMR Managed Scaling. S temi izboljšavami smo opazili, da se je uporaba gruče izboljšala za do 15 odstotkov, stroški gruče pa so se zmanjšali za do 19 odstotkov. Od sredine decembra 2022 so bile te izboljšave privzeto omogočene za gruče EMR, ki uporabljajo Amazon EMR različice 5.34.0 in novejše ter Amazon EMR različice 6.4.0 in novejše. Glede na to, da je EMR Managed Scaling popolnoma upravljana funkcija, boste privzeto prejeli nov, optimiziran algoritem EMR Managed Scaling in z vaše strani ni potrebno nobeno dejanje.

Če želite izvedeti več in začeti uporabljati EMR Managed Scaling, obiščite Stran z dokumentacijo o upravljanem skaliranju EMR.


O avtorjih

Sushant Majithia je glavni produktni vodja za EMR pri Amazon Web Services.

 Vishal Vyas je višji programski inženir za EMR pri Amazon Web Services.

Matthew Liem je višji vodja arhitekture rešitev pri AWS.

Časovni žig:

Več od Veliki podatki AWS