Amazon EMR julkaisee tuen Amazon EC2 C7g (Graviton3) -esiintymille parantaakseen Spark-työkuormien kustannustehokkuutta 7–13 %.

Amazon EMR julkaisee tuen Amazon EC2 C7g (Graviton3) -esiintymille parantaakseen Spark-työkuormien kustannustehokkuutta 7–13 %.

Lähdesolmu: 1935298

Amazonin EMR tarjoaa hallitun palvelun, jonka avulla voit helposti ajaa analytiikkasovelluksia käyttämällä avoimen lähdekoodin kehyksiä, kuten Apache Spark, Hive, Presto, Trino, HBase ja Flink. Amazon EMR -ajoaika kohteelle Kipinä ja Presto sisältää optimoinnit, jotka parantavat suorituskykyä yli kaksi kertaa avoimen lähdekoodin Apache Sparkiin ja Prestoon verrattuna.

Amazon EMR -julkaisun 6.7 avulla voit nyt käyttää Amazonin elastinen laskentapilvi (Amazon EC2) C7g-esiintymät, jotka käyttävät AWS Graviton 3 prosessorit. Nämä tapaukset parantavat Spark-työkuormien hinta-suorituskykyä Amazon EMR:ssä 7.93–13.35 % edellisen sukupolven instansseihin verrattuna ilmentymän koosta riippuen. Tässä viestissä kuvailemme, kuinka arvioimme hinta-laatu-edun.

Amazon EMR -ajonaikainen suorituskyky EC2 C7g -esiintymillä

Suoritimme TPC-DS 3 TB:n vertailukyselyitä Amazon EMR 6.9:ssä käyttämällä Amazon EMR -ajonaikaa Apache Sparkille (yhteensopiva Apache Spark 3.3:n kanssa) C7g-esiintymien kanssa. Tiedot on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3), ja tuloksia verrattiin vastaaviin C6g-klustereihin edellisen sukupolven instanssiperheestä. Mittasimme suorituskyvyn parannuksia käyttämällä kyselyn kokonaisajoaikaa ja kyselyn suoritusajan geometristä keskiarvoa TPC-DS 3 TB -vertailukyselyissä.

Tuloksemme osoittivat 13.65–18.73 %:n parannusta kyselyn kokonaissuorituskyvyssä ja 16.98–20.28 % geometrisen keskiarvon parannusta EMR-klustereissa, joissa on C7g, verrattuna vastaaviin EMR-klustereihin, joissa oli C6g-esiintymiä, ilmentymän koosta riippuen. Vertailemalla kustannuksia havaitsimme 7.93–13.35 %:n kustannusten alenemisen EMR-klusterissa C7g:llä verrattuna vastaavaan C6g:llä, riippuen ilmentymän koosta. Emme tehneet C6g xlarge -esiintymän vertailua, koska siinä ei ollut tarpeeksi muistia kyselyiden suorittamiseen.

Seuraavassa taulukossa näkyvät tulokset TPC-DS 3 TB:n vertailukyselyiden suorittamisesta Amazon EMR 6.9 -versiolla verrattuna vastaaviin C7g- ja C6g-ilmentymien EMR-klusteriin.

Esineen koko 16 XL 12 XL 8 XL 4 XL 2 XL
Klusterin kokonaiskoko (1 johtaja + 5 ydinsolmua) 6 6 6 6 6
Kyselyn kokonaissuoritusaika C6g:ssä (sekunteina) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Kyselyn kokonaissuoritusaika C7g:ssä (sekunteina) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Täydellinen kyselyn suoritusajan parannus C7g:llä 13.65% 15.13% 14.95% 18.73% 16.64%
Geometrinen keskiarvo kyselyn suoritusaika C6g (sekuntia) 22.2113 21.75459 23.38081 31.97192 45.41656
Geometrinen keskiarvo kyselyn suoritusaika C7g (sekuntia) 18.43905 17.65898 19.01684 25.48695 37.43737
Geometrisen keskiarvon kyselyn suoritusajan parannus C7g:llä 16.98% 18.83% 18.66% 20.28% 17.57%
EC2 C6g -esimerkkihinta ($ per tunti) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g -esimerkkihinta ($ per tunti) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) esimerkkihinta ($ per tunti) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
C6g:n käyttökustannukset ($ per esiintymä) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g -esimerkkihinta ($ per tunti) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g hinta ($ per tunti per tapaus) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g esimerkkihinta ($ per tunti) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
C7g:n käyttökustannukset ($ per esiintymä) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Kokonaiskustannusten aleneminen C7g:llä, mukaan lukien suorituskyvyn parantaminen -7.93% -9.52% -9.32% -13.35% -11.13%

Seuraavassa kaaviossa näkyy kyselykohtaisia ​​parannuksia, jotka on havaittu C7g 2xlarge -esiintymissä verrattuna vastaaviin C6g-sukupolviin.

Benchmarking-metodologia

Tässä viestissä käytetty vertailuarvo on johdettu alan standardinmukaisesta TPC-DS-vertailuarvosta ja käyttää kyselyitä Spark SQL Performance Tests GitHub repo GMT: n kanssa korjaukset sovelletaan.

Laskimme TCO:n kertomalla tuntikustannukset klusterin esiintymien lukumäärällä ja kyselyiden suorittamiseen klusterissa kuluvalla ajalla. Käytimme on-demand-hinnoittelua USA:n itäisen (N. Virginia) alueen kaikissa tapauksissa.

Yhteenveto

Tässä viestissä kuvailimme, kuinka arvioimme kustannustehokkuuden hyödyn Amazon EMR:n käytöstä C7g-esiintymien kanssa verrattuna vastaavien edellisen sukupolven esiintymien käyttöön. Näiden uusien tapausten käyttäminen Amazon EMR:n kanssa parantaa kustannustehokkuutta vielä 7–13 %.


Tietoja kirjoittajista

AI MSAl MS on Amazon EMR:n tuotepäällikkö Amazon Web Servicesissä.

Kyeonghyun Ryoo on ohjelmistokehitysinsinööri EMR:lle Amazon Web Servicesissä. Hän suunnittelee ja rakentaa pääasiassa automaatiotyökaluja sisäisille tiimeille ja asiakkaille maksimoidakseen heidän tuottavuuttaan. Työn ulkopuolella hän on eläkkeellä oleva ammattipelaamisen maailmanmestari, joka nauttii edelleen videopelien pelaamisesta.

Yuzhoun aurinko on EMR:n ohjelmistokehitysinsinööri Amazon Web Services -palvelussa.

Steve Koonce on EMR:n suunnittelupäällikkö Amazon Web Servicesissä.

Aikaleima:

Lisää aiheesta AWS Big Data