Amazonin EMR tarjoaa hallitun palvelun, jonka avulla voit helposti ajaa analytiikkasovelluksia käyttämällä avoimen lähdekoodin kehyksiä, kuten Apache Spark, Hive, Presto, Trino, HBase ja Flink. Amazon EMR -ajoaika kohteelle Kipinä ja Presto sisältää optimoinnit, jotka parantavat suorituskykyä yli kaksi kertaa avoimen lähdekoodin Apache Sparkiin ja Prestoon verrattuna.
Amazon EMR -julkaisun 6.7 avulla voit nyt käyttää Amazonin elastinen laskentapilvi (Amazon EC2) C7g-esiintymät, jotka käyttävät AWS Graviton 3 prosessorit. Nämä tapaukset parantavat Spark-työkuormien hinta-suorituskykyä Amazon EMR:ssä 7.93–13.35 % edellisen sukupolven instansseihin verrattuna ilmentymän koosta riippuen. Tässä viestissä kuvailemme, kuinka arvioimme hinta-laatu-edun.
Amazon EMR -ajonaikainen suorituskyky EC2 C7g -esiintymillä
Suoritimme TPC-DS 3 TB:n vertailukyselyitä Amazon EMR 6.9:ssä käyttämällä Amazon EMR -ajonaikaa Apache Sparkille (yhteensopiva Apache Spark 3.3:n kanssa) C7g-esiintymien kanssa. Tiedot on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3), ja tuloksia verrattiin vastaaviin C6g-klustereihin edellisen sukupolven instanssiperheestä. Mittasimme suorituskyvyn parannuksia käyttämällä kyselyn kokonaisajoaikaa ja kyselyn suoritusajan geometristä keskiarvoa TPC-DS 3 TB -vertailukyselyissä.
Tuloksemme osoittivat 13.65–18.73 %:n parannusta kyselyn kokonaissuorituskyvyssä ja 16.98–20.28 % geometrisen keskiarvon parannusta EMR-klustereissa, joissa on C7g, verrattuna vastaaviin EMR-klustereihin, joissa oli C6g-esiintymiä, ilmentymän koosta riippuen. Vertailemalla kustannuksia havaitsimme 7.93–13.35 %:n kustannusten alenemisen EMR-klusterissa C7g:llä verrattuna vastaavaan C6g:llä, riippuen ilmentymän koosta. Emme tehneet C6g xlarge -esiintymän vertailua, koska siinä ei ollut tarpeeksi muistia kyselyiden suorittamiseen.
Seuraavassa taulukossa näkyvät tulokset TPC-DS 3 TB:n vertailukyselyiden suorittamisesta Amazon EMR 6.9 -versiolla verrattuna vastaaviin C7g- ja C6g-ilmentymien EMR-klusteriin.
Esineen koko | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Klusterin kokonaiskoko (1 johtaja + 5 ydinsolmua) | 6 | 6 | 6 | 6 | 6 |
Kyselyn kokonaissuoritusaika C6g:ssä (sekunteina) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Kyselyn kokonaissuoritusaika C7g:ssä (sekunteina) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Täydellinen kyselyn suoritusajan parannus C7g:llä | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Geometrinen keskiarvo kyselyn suoritusaika C6g (sekuntia) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Geometrinen keskiarvo kyselyn suoritusaika C7g (sekuntia) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Geometrisen keskiarvon kyselyn suoritusajan parannus C7g:llä | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
EC2 C6g -esimerkkihinta ($ per tunti) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
EMR C6g -esimerkkihinta ($ per tunti) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) esimerkkihinta ($ per tunti) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
C6g:n käyttökustannukset ($ per esiintymä) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
EC2 C7g -esimerkkihinta ($ per tunti) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
EMR C7g hinta ($ per tunti per tapaus) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) C7g esimerkkihinta ($ per tunti) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
C7g:n käyttökustannukset ($ per esiintymä) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Kokonaiskustannusten aleneminen C7g:llä, mukaan lukien suorituskyvyn parantaminen | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
Seuraavassa kaaviossa näkyy kyselykohtaisia parannuksia, jotka on havaittu C7g 2xlarge -esiintymissä verrattuna vastaaviin C6g-sukupolviin.
Benchmarking-metodologia
Tässä viestissä käytetty vertailuarvo on johdettu alan standardinmukaisesta TPC-DS-vertailuarvosta ja käyttää kyselyitä Spark SQL Performance Tests GitHub repo GMT: n kanssa korjaukset sovelletaan.
Laskimme TCO:n kertomalla tuntikustannukset klusterin esiintymien lukumäärällä ja kyselyiden suorittamiseen klusterissa kuluvalla ajalla. Käytimme on-demand-hinnoittelua USA:n itäisen (N. Virginia) alueen kaikissa tapauksissa.
Yhteenveto
Tässä viestissä kuvailimme, kuinka arvioimme kustannustehokkuuden hyödyn Amazon EMR:n käytöstä C7g-esiintymien kanssa verrattuna vastaavien edellisen sukupolven esiintymien käyttöön. Näiden uusien tapausten käyttäminen Amazon EMR:n kanssa parantaa kustannustehokkuutta vielä 7–13 %.
Tietoja kirjoittajista
Al MS on Amazon EMR:n tuotepäällikkö Amazon Web Servicesissä.
Kyeonghyun Ryoo on ohjelmistokehitysinsinööri EMR:lle Amazon Web Servicesissä. Hän suunnittelee ja rakentaa pääasiassa automaatiotyökaluja sisäisille tiimeille ja asiakkaille maksimoidakseen heidän tuottavuuttaan. Työn ulkopuolella hän on eläkkeellä oleva ammattipelaamisen maailmanmestari, joka nauttii edelleen videopelien pelaamisesta.
Yuzhoun aurinko on EMR:n ohjelmistokehitysinsinööri Amazon Web Services -palvelussa.
Steve Koonce on EMR:n suunnittelupäällikkö Amazon Web Servicesissä.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- poikki
- lisä-
- AI
- Kaikki
- Amazon
- Amazon EC2
- Amazonin EMR
- Amazon Web Services
- Analytics
- ja
- Apache
- Apache Spark
- sovellukset
- sovellettu
- Automaatio
- koska
- benchmark
- hyödyttää
- Rakentaminen
- laskettu
- mestari
- Cluster
- verrattuna
- vertaamalla
- yhteensopiva
- Laskea
- Ydin
- Hinta
- kustannusten vähentäminen
- kustannukset
- Asiakkaat
- tiedot
- Riippuen
- johdettu
- kuvata
- on kuvattu
- suunnittelu
- Kehitys
- DID
- helposti
- Itään
- insinööri
- Tekniikka
- nauttia
- Vastaava
- arvioidaan
- Eetteri (ETH)
- perhe
- jälkeen
- puitteet
- alkaen
- Pelit
- pelaamista
- sukupolvi
- sukupolvet
- GitHub
- kaavio
- Hive
- Miten
- HTTPS
- parantaa
- parannus
- parannuksia
- parantaa
- in
- sisältää
- Mukaan lukien
- esimerkki
- sisäinen
- IT
- käynnistää
- johtaja
- onnistui
- johtaja
- Maksimoida
- Muisti
- MS
- kertomalla
- Uusi
- solmut
- numero
- avoimen lähdekoodin
- ulkopuolella
- suorituskyky
- Platon
- Platonin tietotieto
- PlatonData
- pelaa
- Kirje
- edellinen
- hinta
- hinnoittelu
- pääasiallisesti
- prosessorit
- Tuotteet
- tuotepäällikkö
- tuottavuus
- ammatillinen
- toimittaa
- tarjoaa
- alue
- vapauta
- tulokset
- ajaa
- juoksu
- sekuntia
- palvelu
- Palvelut
- Näytä
- Yksinkertainen
- Koko
- Tuotteemme
- ohjelmistokehitys
- Kipinä
- SQL
- Yhä
- Levytila
- tallennettu
- niin
- riittävä
- tuki
- taulukko
- tiimit
- testit
- -
- heidän
- aika
- että
- työkalut
- Yhteensä
- us
- käyttää
- Video
- Videopelit
- virginia
- verkko
- verkkopalvelut
- joka
- KUKA
- Referenssit
- toimii
- maailman-
- zephyrnet