Amazon EMR-i hallatava skaleerimise uute täiustuste abil vähendage Amazon EMR-klastri kulusid kuni 19%

Amazon EMR-i hallatava skaleerimise uute täiustuste abil vähendage Amazon EMR-klastri kulusid kuni 19%

Allikasõlm: 1985302

2020. aasta juunis teatas AWS rakenduse üldisest saadavusest Amazon EMR hallatav skaleerimine. EMR Managed Scaling abil saate määrata oma klastrite minimaalse ja maksimaalse arvutuslimiidi ning Amazon EMR muudab teie klastri suurust automaatselt optimaalse jõudluse ja ressursside kasutamise tagamiseks. EMR Managed Scaling jälgib pidevalt peamisi töökoormusega seotud mõõdikuid ja kasutab algoritmi, mis optimeerib klastri suurust ressursside parimaks kasutamiseks. Arvestades, et funktsioon on täielikult hallatud, rakendatakse algoritmi täiustusi kohe, ilma et oleks vaja versiooniuuendust. Amazon EMR suudab tippude ajal klastrit suurendada ja jõudeoleku perioodidel graatsiliselt vähendada, vähendades teie kulusid ja optimeerides klastri võimsust parima jõudluse saavutamiseks.

2022. aasta jooksul tegime EMR-i hallatava skaleerimise algoritmi mitu täiustust. Nende täiustuste abil täheldasime, et EMR Managed Scalingiga lubatud klastrite puhul paranes kasutus kuni 15 protsenti ja kogukulud vähenesid veelgi kuni 19 protsenti. Alates 2022. aasta detsembri keskpaigast olid EMR-i hallatud skaleerimise täiustused vaikimisi lubatud klastrite jaoks, mis kasutasid Amazon EMR-i versioone 5.34.0 ja uuemaid ning Amazon EMR-i versioone 6.4.0 ja uuemaid nii uute kui ka olemasolevate klastrite jaoks. Lisaks, kuna funktsioon on täielikult hallatud, saate vaikimisi uue optimeeritud hallatava skaleerimise algoritmi ja teie jaoks pole vaja midagi teha.

Allpool on loetletud mõned peamised täiustused, mille lubasime EMR-i hallatava skaleerimise jaoks:

  • Parem klastri kasutamine teie EMR-klastri sihipärase vähendamisega
  • Väiksemad kulud, vältides vahepealseid segamisandmeid salvestavate eksemplaride vähendamist Spark Shuffle'i andmete teadlikkus
  • Parem klastri kasutamine ja vähendage kulusid teie EMR-klastri järkjärgulise suurendamisega

Kliendi edulood

Kuidas täiustatud EMR-i hallatava skaleerimise algoritm aitas tehnoloogiaettevõttel kulusid vähendada:

Et illustreerida kulude kokkuhoidu näidetega, vaatlesime EMR-klastreid tehnoloogiaettevõtte jaoks, mis kasutab Sparki abil palju Amazon EMR-i, et töödelda Kafka ja S3 vahelisi reaalajas arveldusandmeid. Nad käitavad püsivat EMR-klastrit EMR-i versiooniga 5.35 ja neil on sisse lülitatud EMR-i hallatud skaleerimine. Järgmine Amazon CloudWatchi armatuurlaud näitab, kuidas alates 21. detsembrist on täiustatud hallatud skaleerimise algoritm ette nähtud (kokku nõutud sõlmed) ainult 70 sõlme võrreldes eelmise hallatud skaleerimise algoritmiga, mis andis sarnase tööprofiili jaoks 179 sõlme. Mida väiksem on teie tööde käitamiseks ette nähtud ressursside arv, seda väiksem on teie EMR-klastri kogukulu.

Kuidas täiustatud EMR Managed Scaling algoritm aitas reklaamiettevõttel kulusid vähendada?

Vaatasime ka reklaamiettevõtte EMR-klastrit, mis kasutab Amazon EMR-i oma andmeanalüüsi strateegia jaoks ja täidab Sparki abil nende ETL-i partiitöid. Nad käitavad oma klastreid EMR-i versioonis 6.5 ja neil on sisse lülitatud EMR Managed Scaling. Järgmine Amazon CloudWatchi armatuurlaud näitab, kuidas alates 15. detsembrist on täiustatud hallatud skaleerimise algoritm ette (taotletud ühikuid kokku) ainult 41 sõlme võrreldes eelmise hallatud skaleerimise algoritmiga, mis andis sarnase tööprofiili jaoks 86 sõlme.

Teie EMR-klastrite kulude kokkuhoiu ja kasutamise täiustuste hindamine:

Klastri kulude kokkuhoid:

EMR-i klastri hinnangulise kulude kokkuhoiu vaatamiseks EMR-i hallatava skaleerimise täiustustega järgige alltoodud samme.

  • avage CloudWatchi mõõdikute konsool ja all EMR, otsige oma järgi ClusterId.
  • Valige EMR-i jaoks saadaolevate mõõdikute loendist kaks järgmist mõõdikut.
    • Jooksuvõime – Hallatud skaleerimise poliitikas määratud üksuse tüübi põhjal on see saadaval kas "TotalUnitsRunning"Või"TotalNodesRunning"Või"TotalVCPURunning"
    • Hallatava skaleerimise nõutud mahtuvus – Hallatud skaleerimise poliitikas määratud üksuse tüübi põhjal on see saadaval kas "Taotletud ühikud kokku"Või"TotalNodesRequested"Või"Kokku VCPURequested"
  •  Joonistage mõlemad mõõdikud oma CloudWatchi armatuurlauale.
  • Valige ajavahemikuks 3 kuud 2022. aasta novembrist 2023. aasta jaanuarini, et vaadata täiustatud hallatava skaleerimise algoritmi täiustusi võrreldes eelmise hallatava skaleerimise algoritmiga.

Klastrite kasutamise täiustused:

EMR-i klastri kasutamise täiustuste hindamiseks EMR-i hallatava skaleerimise täiustuste abil järgige alltoodud samme.

  • Avage CloudWatchi mõõdikute konsool ja all EMR, otsige oma järgi ClusterId.
  • EMR-i jaoks saadaolevate mõõdikute loendist valige "YARNMemoryAvailablePercentage” mõõdik.
  • YARNi kasutatava mälu tuletamiseks lisage matemaatiline avaldis, näiteks "Lisa matemaatika → alusta tühja avaldisega"
    • Uue matemaatilise avaldise jaoks määrake Label=lõnga kasutamine ja seatud Details=100-YARNMemoryAvailablePercentage.
  • Joonistage klastri kasutusmõõdik oma CloudWatchi armatuurlauale.
  • Valige ajavahemikuks 3 kuud 2022. aasta novembrist 2023. aasta jaanuarini, et vaadata täiustatud hallatava skaleerimise algoritmi täiustusi võrreldes eelmise hallatava skaleerimise algoritmiga.

Mis järgmiseks

Jätkame hallatava skaleerimise algoritmi häälestamist iga uue EMR-i väljalaskega ja parandame seeläbi klientide kasutuskogemust klastrite skaleerimisel EMR-i hallatava skaleerimisega.

Järeldus

Selles postituses andsime ülevaate peamistest täiustustest, mille me EMR Managed Scalingis käivitasime. Nende täiustuste abil täheldasime, et klastri kasutamine paranes kuni 15 protsenti ja klastri kulud vähenesid kuni 19 protsenti. Alates 2022. aasta detsembri keskpaigast olid need täiustused vaikimisi lubatud EMR-i klastrite jaoks, mis kasutasid Amazon EMR-i versioone 5.34.0 ja uuemaid ning Amazoni EMR-i versioone 6.4.0 ja uuemaid. Arvestades, et EMR Managed Scaling on täielikult hallatav funktsioon, saate vaikimisi uue optimeeritud EMR-i hallatava skaleerimise algoritmi ja teil pole vaja midagi teha.

Lisateabe saamiseks ja EMR Managed Scalingiga alustamiseks külastage veebilehte EMR Managed Scaling dokumentatsiooni leht.


Autoritest

Sushant Majithia on Amazon Web Servicesi EMR-i peamine tootejuht.

 Vishal Vyas on Amazon Web Servicesi EMR-i vanemtarkvarainsener.

Matthew Liem on AWS-i vanemlahenduste arhitektuurijuht.

Ajatempel:

Veel alates AWSi suured andmed