Amazon EMR lansira podporo za instance Amazon EC2 C7g (Graviton3), da izboljša stroškovno učinkovitost za delovne obremenitve Spark za 7–13 %

Amazon EMR lansira podporo za instance Amazon EC2 C7g (Graviton3), da izboljša stroškovno učinkovitost za delovne obremenitve Spark za 7–13 %

Izvorno vozlišče: 1935298

Amazonski EMR zagotavlja upravljano storitev za preprosto izvajanje analitičnih aplikacij z uporabo odprtokodnih ogrodij, kot so Apache Spark, Hive, Presto, Trino, HBase in Flink. Izvajalno okolje Amazon EMR za Spark in Presto vključuje optimizacije, ki zagotavljajo več kot dvakrat večje izboljšave zmogljivosti v primerjavi z odprtokodnima Apache Spark in Presto.

Z izdajo Amazon EMR 6.7 lahko zdaj uporabljate Amazonski elastični računalniški oblak (Amazon EC2) Primerki C7g, ki uporabljajo AWS Graviton3 procesorji. Ti primerki izboljšajo razmerje med ceno in zmogljivostjo izvajanja delovnih obremenitev Spark na Amazon EMR za 7.93–13.35 % v primerjavi z primerki prejšnje generacije, odvisno od velikosti primerka. V tej objavi opisujemo, kako smo ocenili razmerje med ceno in zmogljivostjo.

Zmogljivost med izvajanjem Amazon EMR z instancami EC2 C7g

Izvajali smo primerjalne poizvedbe TPC-DS 3 TB na Amazon EMR 6.9 z uporabo izvajalnega okolja Amazon EMR za Apache Spark (združljivo z Apache Spark 3.3) s primerki C7g. Podatki so bili shranjeni v Preprosta storitev shranjevanja Amazon (Amazon S3), rezultati pa so bili primerjani z enakovrednimi gručami C6g iz družine primerkov prejšnje generacije. Izboljšave zmogljivosti smo izmerili s skupnim časom izvajanja poizvedbe in geometrično sredino časa izvajanja poizvedbe v primerjalnih poizvedbah TPC-DS 3 TB.

Naši rezultati so pokazali 13.65–18.73-odstotno izboljšanje skupne zmogljivosti izvajanja poizvedbe in 16.98–20.28-odstotno izboljšanje geometrične sredine na EMR gručah s C7g v primerjavi z enakovrednimi EMR gručami s C6g primerki, odvisno od velikosti primerka. Pri primerjavi stroškov smo opazili 7.93–13.35-odstotno zmanjšanje stroškov na gruči EMR s C7g v primerjavi z enakovrednim s C6g, odvisno od velikosti primerka. Primerka C6g xlarge nismo primerjali, ker ni imel dovolj pomnilnika za izvajanje poizvedb.

Naslednja tabela prikazuje rezultate izvajanja primerjalnih poizvedb TPC-DS 3 TB z uporabo Amazon EMR 6.9 v primerjavi z enakovrednimi gručami primerkov C7g in C6g EMR.

Velikost primerka 16 XL 12 XL 8 XL 4 XL 2 XL
Skupna velikost gruče (1 vodilni + 5 jedrnih vozlišč) 6 6 6 6 6
Skupni čas izvajanja poizvedbe na C6g (sekunde) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Skupni čas izvajanja poizvedbe na C7g (sekunde) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Popolna izboljšava časa izvajanja poizvedb s C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Geometrična sredina izvajalnega časa poizvedbe C6g (sekunde) 22.2113 21.75459 23.38081 31.97192 45.41656
Geometrična sredina izvajalnega časa poizvedbe C7g (sekunde) 18.43905 17.65898 19.01684 25.48695 37.43737
Izboljšanje izvajalnega časa poizvedb z geometrijsko sredino s C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Cena instance EC2 C6g ($ na uro) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Cena primerka EMR C6g ($ na uro) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) cena primerka ($ na uro) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Stroški delovanja na C6g ($ na primerek) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Cena instance EC2 C7g ($ na uro) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Cena EMR C7g ($ na uro na primerek) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Cena primerka C7g ($ na uro) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Stroški delovanja na C7g ($ na primerek) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Popolno znižanje stroškov s C7g, vključno z izboljšanjem zmogljivosti -7.93% -9.52% -9.32% -13.35% -11.13%

Naslednji graf prikazuje izboljšave na poizvedbo, opažene na primerkih C7g 2xlarge v primerjavi z enakovrednimi generacijami C6g.

Metodologija primerjalne analize

Primerjalno merilo, uporabljeno v tej objavi, izhaja iz industrijskega standardnega merila uspešnosti TPC-DS in uporablja poizvedbe iz Spark SQL Performance Tests GitHub repo z naslednjim popravke uporablja.

TCO smo izračunali tako, da smo ceno na uro pomnožili s številom primerkov v gruči in časom, potrebnim za izvajanje poizvedb v gruči. Za vse primere smo uporabili cene na zahtevo v vzhodni regiji ZDA (N. Virginia).

zaključek

V tej objavi smo opisali, kako smo ocenili stroškovno učinkovitost pri uporabi Amazon EMR s primerki C7g v primerjavi z uporabo enakovrednih primerkov prejšnje generacije. Uporaba teh novih primerkov z Amazon EMR izboljša stroškovno učinkovitost za dodatnih 7–13 %.


O avtorjih

AI MSAl MS je produktni vodja za Amazon EMR pri Amazon Web Services.

Kyeonghyun Ryoo je inženir za razvoj programske opreme za EMR pri Amazon Web Services. Primarno se ukvarja z načrtovanjem in izgradnjo orodij za avtomatizacijo za notranje ekipe in stranke, da povečajo svojo produktivnost. Zunaj službe je upokojeni svetovni prvak v profesionalnem igranju iger, ki še vedno uživa v igranju videoiger.

Yuzhou Sun je inženir za razvoj programske opreme za EMR pri Amazon Web Services.

Steve Koonce je vodja inženiringa za EMR pri Amazon Web Services.

Časovni žig:

Več od Veliki podatki AWS