Amazon EMR lanserer støtte for Amazon EC2 C7g (Graviton3)-forekomster for å forbedre kostnadsytelsen for Spark-arbeidsbelastninger med 7–13 %

Amazon EMR lanserer støtte for Amazon EC2 C7g (Graviton3)-forekomster for å forbedre kostnadsytelsen for Spark-arbeidsbelastninger med 7–13 %

Kilde node: 1935298

Amazon EMR tilbyr en administrert tjeneste for enkelt å kjøre analyseapplikasjoner ved å bruke åpen kildekode-rammeverk som Apache Spark, Hive, Presto, Trino, HBase og Flink. Amazon EMR kjøretid for Spark og Presto inkluderer optimaliseringer som gir over dobbelt så høy ytelsesforbedringer sammenlignet med åpen kildekode Apache Spark og Presto.

Med Amazon EMR utgivelse 6.7 kan du nå bruke Amazon Elastic Compute Cloud (Amazon EC2) C7g-forekomster, som bruker AWS Graviton3 prosessorer. Disse forekomstene forbedrer prisytelsen for å kjøre Spark-arbeidsbelastninger på Amazon EMR med 7.93–13.35 % sammenlignet med tidligere generasjonsforekomster, avhengig av forekomststørrelsen. I dette innlegget beskriver vi hvordan vi estimerte pris-ytelsesfordelen.

Amazon EMR kjøretid med EC2 C7g-forekomster

Vi kjørte TPC-DS 3 TB benchmark-spørringer på Amazon EMR 6.9 ved å bruke Amazon EMR-runtime for Apache Spark (kompatibel med Apache Spark 3.3) med C7g-forekomster. Data ble lagret i Amazon enkel lagringstjeneste (Amazon S3), og resultatene ble sammenlignet med tilsvarende C6g-klynger fra forrige generasjons instansfamilie. Vi målte ytelsesforbedringer ved å bruke den totale spørringens kjøretid og det geometriske gjennomsnittet av spørringens kjøretid på tvers av TPC-DS 3 TB benchmark-spørringer.

Resultatene våre viste 13.65–18.73 % forbedring i total søkekjøringsytelse og 16.98–20.28 % forbedring i geometrisk gjennomsnitt på EMR-klynger med C7g sammenlignet med tilsvarende EMR-klynger med C6g-forekomster, avhengig av forekomststørrelsen. Ved å sammenligne kostnader observerte vi 7.93–13.35 % reduksjon i kostnad på EMR-klyngen med C7g sammenlignet med tilsvarende med C6g, avhengig av instansstørrelsen. Vi referanseindekserte ikke C6g xlarge-forekomsten fordi den ikke hadde nok minne til å kjøre spørringene.

Tabellen nedenfor viser resultatene fra å kjøre TPC-DS 3 TB benchmark-spørringer med Amazon EMR 6.9 sammenlignet med tilsvarende C7g- og C6g-forekomst-EMR-klynger.

Forekomststørrelse 16 XL 12 XL 8 XL 4 XL 2 XL
Total størrelse på klyngen (1 leder + 5 kjernenoder) 6 6 6 6 6
Total spørringstid på C6g (sekunder) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Total spørringstid på C7g (sekunder) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Total forbedring av spørringskjøringen med C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Geometrisk gjennomsnittlig spørring kjøretid C6g (sekunder) 22.2113 21.75459 23.38081 31.97192 45.41656
Geometrisk gjennomsnittlig spørring kjøretid C7g (sekunder) 18.43905 17.65898 19.01684 25.48695 37.43737
Forbedring av geometrisk gjennomsnittlig spørringstid med C7g 16.98% 18.83% 18.66% 20.28% 17.57%
EC2 C6g-forekomstpris ($ per time) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g-forekomstpris ($ per time) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) forekomstpris ($ per time) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Kostnad for å kjøre på C6g ($ per forekomst) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g-forekomstpris ($ per time) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g-pris ($ per time per forekomst) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g-forekomstpris ($ per time) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Kostnad for å kjøre på C7g ($ per forekomst) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Total kostnadsreduksjon med C7g inkludert ytelsesforbedring -7.93% -9.52% -9.32% -13.35% -11.13%

Følgende graf viser forbedringer per forespørsel observert på C7g 2xlarge forekomster sammenlignet med tilsvarende C6g-generasjoner.

Benchmarking metodikk

Referansen som brukes i dette innlegget er avledet fra industristandarden TPC-DS-referansen, og bruker spørringer fra Spark SQL-ytelsestester GitHub-repo med følgende reparasjoner anvendt.

Vi beregnet TCO ved å multiplisere kostnad per time med antall forekomster i klyngen og tiden det tok å kjøre spørringene i klyngen. Vi brukte etterspørselspriser i USA øst (N. Virginia)-regionen i alle tilfeller.

konklusjonen

I dette innlegget beskrev vi hvordan vi estimerte kostnads-ytelsesfordelen ved å bruke Amazon EMR med C7g-forekomster sammenlignet med å bruke tilsvarende tidligere generasjonsforekomster. Bruk av disse nye forekomstene med Amazon EMR forbedrer kostnadsytelsen med ytterligere 7–13 %.


Om forfatterne

AI MSAl MS er produktsjef for Amazon EMR hos Amazon Web Services.

Kyeonghyun Ryoo er en programvareutviklingsingeniør for EMR hos Amazon Web Services. Han jobber primært med å designe og bygge automasjonsverktøy for interne team og kunder for å maksimere produktiviteten deres. Utenom jobben er han en pensjonert verdensmester i profesjonell spilling som fortsatt liker å spille videospill.

Yuzhou Sun er en programvareutviklingsingeniør for EMR hos Amazon Web Services.

Steve Koonce er ingeniørsjef for EMR hos Amazon Web Services.

Tidstempel:

Mer fra AWS Big Data