Amazon EMR lansează suport pentru instanțele Amazon EC2 C7g (Graviton3) pentru a îmbunătăți performanța costurilor pentru sarcinile de lucru Spark cu 7-13%

Amazon EMR lansează suport pentru instanțele Amazon EC2 C7g (Graviton3) pentru a îmbunătăți performanța costurilor pentru sarcinile de lucru Spark cu 7-13%

Nodul sursă: 1935298

Amazon EMR oferă un serviciu gestionat pentru a rula cu ușurință aplicații de analiză folosind cadre open-source, cum ar fi Apache Spark, Hive, Presto, Trino, HBase și Flink. Timpul de execuție Amazon EMR pentru Scânteie și Presto include optimizări care oferă îmbunătățiri de performanță de peste două ori mai mari decât cu Apache Spark și Presto open-source.

Cu Amazon EMR versiunea 6.7, acum puteți utiliza Cloud Elastic de calcul Amazon (Amazon EC2) Instanțele C7g, care utilizează AWS Graviton3 procesoare. Aceste instanțe îmbunătățesc performanța preț-performanță a rulării sarcinilor de lucru Spark pe Amazon EMR cu 7.93–13.35% față de instanțe din generația anterioară, în funcție de dimensiunea instanței. În această postare, descriem modul în care am estimat beneficiul preț-performanță.

Performanță de rulare Amazon EMR cu instanțe EC2 C7g

Am rulat interogări de referință TPC-DS 3 TB pe Amazon EMR 6.9 utilizând timpul de execuție Amazon EMR pentru Apache Spark (compatibil cu Apache Spark 3.3) cu instanțe C7g. Datele au fost stocate în Serviciul Amazon de stocare simplă (Amazon S3), iar rezultatele au fost comparate cu clustere C6g echivalente din familia de instanțe din generația anterioară. Am măsurat îmbunătățirile de performanță utilizând durata totală de rulare a interogării și media geometrică a duratei de rulare a interogării pentru interogările de referință TPC-DS de 3 TB.

Rezultatele noastre au arătat o îmbunătățire cu 13.65–18.73% a performanței totale de rulare a interogării și o îmbunătățire cu 16.98–20.28% a mediei geometrice pe clusterele EMR cu C7g în comparație cu clusterele EMR echivalente cu instanțe C6g, în funcție de dimensiunea instanței. În compararea costurilor, am observat o reducere de 7.93–13.35% a costurilor pe clusterul EMR cu C7g în comparație cu echivalentul cu C6g, în funcție de dimensiunea instanței. Nu am evaluat instanța C6g xlarge deoarece nu avea suficientă memorie pentru a rula interogările.

Următorul tabel arată rezultatele de la rularea interogărilor de referință TPC-DS 3 TB folosind Amazon EMR 6.9 în comparație cu clusterele EMR de instanță C7g și C6g echivalente.

Dimensiunea instanței 16 XL 12 XL 8 XL 4 XL 2 XL
Dimensiunea totală a clusterului (1 lider + 5 noduri de bază) 6 6 6 6 6
Durată totală de rulare a interogării pe C6g (secunde) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Durată totală de rulare a interogării pe C7g (secunde) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Îmbunătățirea totală a timpului de rulare a interogărilor cu C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Timp de rulare a interogării cu media geometrică C6g (secunde) 22.2113 21.75459 23.38081 31.97192 45.41656
Timp de rulare a interogării cu media geometrică C7g (secunde) 18.43905 17.65898 19.01684 25.48695 37.43737
Îmbunătățirea timpului de execuție a interogării cu media geometrică cu C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Prețul instanței EC2 C6g ($ pe oră) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Prețul instanței EMR C6g ($ pe oră) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) prețul instanței ($ pe oră) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Costul rulării pe C6g ($ per instanță) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Prețul instanței EC2 C7g ($ pe oră) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Prețul EMR C7g (dolari pe oră pe caz) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Prețul instanței C7g ($ pe oră) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Costul rulării pe C7g ($ per instanță) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Reducerea totală a costurilor cu C7g, inclusiv îmbunătățirea performanței -7.93% -9.52% -9.32% -13.35% -11.13%

Următorul grafic arată îmbunătățirile pe interogare observate pe instanțele C7g 2xlarge în comparație cu generațiile echivalente C6g.

Metodologia de benchmarking

Benchmark-ul utilizat în această postare este derivat din standardul de referință TPC-DS din industrie și utilizează interogări din Teste de performanță Spark SQL Repo GitHub cu următoarele remedieri aplicat.

Am calculat TCO înmulțind costul pe oră cu numărul de instanțe din cluster și cu timpul necesar pentru a rula interogările pe cluster. Am folosit prețuri la cerere în Regiunea de Est a SUA (Virginia de Nord) pentru toate cazurile.

Concluzie

În această postare, am descris modul în care am estimat beneficiul cost-performanță din utilizarea Amazon EMR cu instanțe C7g, în comparație cu utilizarea instanțelor echivalente din generația anterioară. Utilizarea acestor noi instanțe cu Amazon EMR îmbunătățește performanța costurilor cu încă 7-13%.


Despre autori

OBIECTIVEAl MS este manager de produs pentru Amazon EMR la Amazon Web Services.

Kyeonghyun Ryoo este inginer de dezvoltare software pentru EMR la Amazon Web Services. El lucrează în primul rând la proiectarea și construirea de instrumente de automatizare pentru echipele interne și clienți pentru a maximiza productivitatea acestora. În afara serviciului, este un campion mondial pensionar la jocurile profesionale, căruia îi place încă să joace jocuri video.

Yuzhou Sun este inginer de dezvoltare software pentru EMR la Amazon Web Services.

Steve Koonce este manager de inginerie pentru EMR la Amazon Web Services.

Timestamp-ul:

Mai mult de la AWS Big Data