Reduceți costurile clusterelor Amazon EMR cu până la 19% cu noi îmbunătățiri ale Amazon EMR Managed Scaling

Reduceți costurile clusterelor Amazon EMR cu până la 19% cu noi îmbunătățiri ale Amazon EMR Managed Scaling

Nodul sursă: 1985302

În iunie 2020, AWS a anunțat disponibilitatea generală a Scalare gestionată Amazon EMR. Cu EMR Managed Scaling, specificați limitele minime și maxime de calcul pentru clusterele dvs., iar Amazon EMR vă redimensionează automat clusterul pentru o performanță optimă și o utilizare optimă a resurselor. EMR Managed Scaling monitorizează constant valorile cheie legate de sarcina de lucru și utilizează un algoritm care optimizează dimensiunea clusterului pentru o utilizare optimă a resurselor. Având în vedere că caracteristica este complet gestionată, îmbunătățirile algoritmului sunt realizate imediat fără a fi nevoie de o actualizare a versiunii. Amazon EMR poate mări clusterul în timpul vârfurilor și îl poate reduce grațios în perioadele de inactivitate, reducând costurile și optimizând capacitatea clusterului pentru cea mai bună performanță.

Pe parcursul anului 2022, am adus mai multe îmbunătățiri ale algoritmului de scalare gestionată EMR. Cu aceste îmbunătățiri, am observat că pentru clusterele activate cu EMR Managed Scaling, utilizarea sa îmbunătățit cu până la 15%, iar costurile totale au fost reduse în continuare cu până la 19%. Începând cu jumătatea lunii decembrie 2022, îmbunătățirile EMR Managed Scaling au fost activate în mod implicit pentru clustere care utilizează Amazon EMR versiunile 5.34.0 și versiunile ulterioare și Amazon EMR versiunile 6.4.0 și ulterioare atât pentru clusterele noi, cât și pentru cele existente. În plus, având în vedere că funcția este complet gestionată, veți obține în mod implicit noul algoritm de scalare gestionată optimizat și nu este necesară nicio acțiune din partea dvs.

Mai jos sunt enumerate câteva dintre îmbunătățirile cheie pe care le-am activat pentru EMR Managed Scaling:

  • Utilizare îmbunătățită a clusterului cu reducerea direcționată a clusterului dvs. EMR
  • Costuri reduse prin prevenirea reducerii la scară a instanțelor care stochează date amestecate intermediare folosind Conștientizarea datelor Spark Shuffle
  • Utilizarea clusterului îmbunătățită și reducerea costurilor cu extinderea treptată a clusterului dvs. EMR

Povești de succes ale clienților

Cum algoritmul îmbunătățit EMR Managed Scaling a ajutat o întreprindere tehnologică să reducă costurile:

Pentru a ilustra economiile de costuri prin exemple, am analizat un cluster EMR pentru o întreprindere tehnologică, care utilizează în mare măsură Amazon EMR pentru a procesa datele de facturare în timp real între Kafka și S3 folosind Spark. Ei rulează un cluster EMR persistent cu versiunea EMR 5.35 și au activat EMR Managed Scaling. Următorul tablou de bord Amazon CloudWatch arată cum, începând cu 21 decembrie, algoritmul îmbunătățit de scalare gestionată a fost furnizat (total de noduri solicitate) doar 70 de noduri față de algoritmul anterior Managed Scaling, care a furnizat 179 de noduri pentru un profil de job similar. Cu cât este mai mic numărul de resurse furnizate pentru a vă rula joburile, cu atât este mai mic costul total al clusterului dvs. EMR.

Cum algoritmul îmbunătățit EMR Managed Scaling a ajutat o întreprindere de publicitate să reducă costurile:

De asemenea, am analizat un cluster EMR pentru o întreprindere de publicitate, care folosește Amazon EMR pentru strategia lor de analiză a datelor și își execută joburile ETL în loturi folosind Spark. Își execută clusterele pe versiunea 6.5 EMR și au activat EMR Managed Scaling. Următorul tablou de bord Amazon CloudWatch arată cum, începând cu 15 decembrie, algoritmul îmbunătățit de scalare gestionată a fost furnizat (total de unitati solicitate) doar 41 de noduri față de algoritmul anterior Managed Scaling, care a furnizat 86 de noduri pentru un profil de job similar.

Estimarea economiilor de costuri și îmbunătățirea utilizării pentru clusterele dvs. EMR:

Economii de costuri ale grupului:

Pentru a vedea economiile estimate ale costurilor pentru clusterul dvs. EMR cu îmbunătățirile EMR Managed Scaling, urmați pașii de mai jos:

  • Deschideți Consola de valori CloudWatch si, sub EMR, căutați după dvs ClusterId.
  • Din lista de valori disponibile pentru EMR, selectați următoarele două valori:
    • Capacitate de rulare – Pe baza tipului de unitate pe care l-ați specificat în politica dvs. de scalare gestionată, aceasta va fi disponibilă fie ca „TotalUnitsRunning”Sau„TotalNodesRunning"Sau"TotalVCPURunningMatei 22:21
    • Capacitate solicitată de Managed Scaling – Pe baza tipului de unitate pe care l-ați specificat în politica dvs. de scalare gestionată, aceasta va fi disponibilă fie ca „TotalUnitsRequested”Sau„TotalNodesRequested"Sau"TotalVCPUSolicitateMatei 22:21
  •  Trasează ambele valori în tabloul de bord CloudWatch.
  • Selectați intervalul de timp de 3 luni între noiembrie 2022 și ianuarie 2023 pentru a vedea îmbunătățirile cu algoritmul îmbunătățit de scalare gestionată în comparație cu algoritmul de scalare gestionată anterior.

Îmbunătățiri privind utilizarea clusterului:

Pentru a estima îmbunătățirile în utilizarea clusterului dvs. EMR cu îmbunătățirile EMR Managed Scaling, urmați pașii de mai jos:

  • Deschideți consola de metrici CloudWatch și, sub EMR, căutați după dvs ClusterId.
  • Din lista de valori disponibile pentru EMR, selectați „YARNMemoryAvailablePercentage” metric.
  • Pentru a obține memoria utilizată de YARN, adăugați o expresie matematică, cum ar fi „Adăugați matematică → Începeți cu expresia goală”
    • Pentru noua expresie matematică, setați Etichetă=Utilizare fire și stabilit Detalii=100-YARNMemoryAvailablePercentage.
  • Trasează valoarea utilizării clusterului în tabloul de bord CloudWatch.
  • Selectați intervalul de timp de 3 luni între noiembrie 2022 și ianuarie 2023 pentru a vedea îmbunătățirile cu algoritmul îmbunătățit de scalare gestionată în comparație cu algoritmul de scalare gestionată anterior.

Ce urmeaza

Vom continua să optimizăm algoritmul Managed Scaling cu fiecare nouă lansare EMR și, prin urmare, vom îmbunătăți experiența clienților atunci când scalam clustere cu EMR Managed Scaling.

Concluzie

În această postare, am oferit o prezentare generală a îmbunătățirii cheie pe care am lansat-o în EMR Managed Scaling. Cu aceste îmbunătățiri, am observat că utilizarea clusterului s-a îmbunătățit cu până la 15%, iar costul clusterului a fost redus cu până la 19%. Începând cu jumătatea lunii decembrie 2022, aceste îmbunătățiri au fost activate în mod implicit pentru clusterele EMR folosind Amazon EMR versiunile 5.34.0 și ulterioare și Amazon EMR versiunile 6.4.0 și ulterioare. Având în vedere că EMR Managed Scaling este o caracteristică complet gestionată, veți obține în mod implicit noul algoritm optimizat EMR Managed Scaling și nu este necesară nicio acțiune din partea dvs.

Pentru a afla mai multe și pentru a începe cu EMR Managed Scaling, vizitați Pagina de documentație EMR Managed Scaling.


Despre Autori

Sushant Majithia este Manager de produs principal pentru EMR la Amazon Web Services.

 Vishal Vyas este inginer senior software pentru EMR la Amazon Web Services.

Matthew Liem este Senior Solution Architecture Manager la AWS.

Timestamp-ul:

Mai mult de la AWS Big Data