Amazonski EMR zagotavlja upravljano storitev za preprosto izvajanje analitičnih aplikacij z uporabo odprtokodnih ogrodij, kot so Apache Spark, Hive, Presto, Trino, HBase in Flink. Izvajalno okolje Amazon EMR za Spark in Presto vključuje optimizacije, ki zagotavljajo več kot dvakrat večje izboljšave zmogljivosti v primerjavi z odprtokodnima Apache Spark in Presto.
Z izdajo Amazon EMR 6.7 lahko zdaj uporabljate Amazonski elastični računalniški oblak (Amazon EC2) Primerki C7g, ki uporabljajo AWS Graviton3 procesorji. Ti primerki izboljšajo razmerje med ceno in zmogljivostjo izvajanja delovnih obremenitev Spark na Amazon EMR za 7.93–13.35 % v primerjavi z primerki prejšnje generacije, odvisno od velikosti primerka. V tej objavi opisujemo, kako smo ocenili razmerje med ceno in zmogljivostjo.
Zmogljivost med izvajanjem Amazon EMR z instancami EC2 C7g
Izvajali smo primerjalne poizvedbe TPC-DS 3 TB na Amazon EMR 6.9 z uporabo izvajalnega okolja Amazon EMR za Apache Spark (združljivo z Apache Spark 3.3) s primerki C7g. Podatki so bili shranjeni v Preprosta storitev shranjevanja Amazon (Amazon S3), rezultati pa so bili primerjani z enakovrednimi gručami C6g iz družine primerkov prejšnje generacije. Izboljšave zmogljivosti smo izmerili s skupnim časom izvajanja poizvedbe in geometrično sredino časa izvajanja poizvedbe v primerjalnih poizvedbah TPC-DS 3 TB.
Naši rezultati so pokazali 13.65–18.73-odstotno izboljšanje skupne zmogljivosti izvajanja poizvedbe in 16.98–20.28-odstotno izboljšanje geometrične sredine na EMR gručah s C7g v primerjavi z enakovrednimi EMR gručami s C6g primerki, odvisno od velikosti primerka. Pri primerjavi stroškov smo opazili 7.93–13.35-odstotno zmanjšanje stroškov na gruči EMR s C7g v primerjavi z enakovrednim s C6g, odvisno od velikosti primerka. Primerka C6g xlarge nismo primerjali, ker ni imel dovolj pomnilnika za izvajanje poizvedb.
Naslednja tabela prikazuje rezultate izvajanja primerjalnih poizvedb TPC-DS 3 TB z uporabo Amazon EMR 6.9 v primerjavi z enakovrednimi gručami primerkov C7g in C6g EMR.
Velikost primerka | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Skupna velikost gruče (1 vodilni + 5 jedrnih vozlišč) | 6 | 6 | 6 | 6 | 6 |
Skupni čas izvajanja poizvedbe na C6g (sekunde) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Skupni čas izvajanja poizvedbe na C7g (sekunde) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Popolna izboljšava časa izvajanja poizvedb s C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Geometrična sredina izvajalnega časa poizvedbe C6g (sekunde) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Geometrična sredina izvajalnega časa poizvedbe C7g (sekunde) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Izboljšanje izvajalnega časa poizvedb z geometrijsko sredino s C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
Cena instance EC2 C6g ($ na uro) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
Cena primerka EMR C6g ($ na uro) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) cena primerka ($ na uro) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Stroški delovanja na C6g ($ na primerek) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
Cena instance EC2 C7g ($ na uro) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
Cena EMR C7g ($ na uro na primerek) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) Cena primerka C7g ($ na uro) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Stroški delovanja na C7g ($ na primerek) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Popolno znižanje stroškov s C7g, vključno z izboljšanjem zmogljivosti | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
Naslednji graf prikazuje izboljšave na poizvedbo, opažene na primerkih C7g 2xlarge v primerjavi z enakovrednimi generacijami C6g.
Metodologija primerjalne analize
Primerjalno merilo, uporabljeno v tej objavi, izhaja iz industrijskega standardnega merila uspešnosti TPC-DS in uporablja poizvedbe iz Spark SQL Performance Tests GitHub repo z naslednjim popravke uporablja.
TCO smo izračunali tako, da smo ceno na uro pomnožili s številom primerkov v gruči in časom, potrebnim za izvajanje poizvedb v gruči. Za vse primere smo uporabili cene na zahtevo v vzhodni regiji ZDA (N. Virginia).
zaključek
V tej objavi smo opisali, kako smo ocenili stroškovno učinkovitost pri uporabi Amazon EMR s primerki C7g v primerjavi z uporabo enakovrednih primerkov prejšnje generacije. Uporaba teh novih primerkov z Amazon EMR izboljša stroškovno učinkovitost za dodatnih 7–13 %.
O avtorjih
Al MS je produktni vodja za Amazon EMR pri Amazon Web Services.
Kyeonghyun Ryoo je inženir za razvoj programske opreme za EMR pri Amazon Web Services. Primarno se ukvarja z načrtovanjem in izgradnjo orodij za avtomatizacijo za notranje ekipe in stranke, da povečajo svojo produktivnost. Zunaj službe je upokojeni svetovni prvak v profesionalnem igranju iger, ki še vedno uživa v igranju videoiger.
Yuzhou Sun je inženir za razvoj programske opreme za EMR pri Amazon Web Services.
Steve Koonce je vodja inženiringa za EMR pri Amazon Web Services.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- čez
- Dodatne
- AI
- vsi
- Amazon
- Amazon EC2
- Amazonski EMR
- Amazon Web Services
- analitika
- in
- Apache
- Apache Spark
- aplikacije
- uporabna
- Avtomatizacija
- ker
- merilo
- koristi
- Building
- izračuna
- prvak
- Grozd
- v primerjavi z letom
- primerjavo
- združljiv
- Izračunajte
- Core
- strošek
- zmanjšanje cene
- stroški
- Stranke, ki so
- datum
- Odvisno
- Izpeljano
- opisati
- opisano
- oblikovanje
- Razvoj
- DID
- enostavno
- East
- inženir
- Inženiring
- uživajte
- Enakovredna
- ocenjeni
- Eter (ETH)
- družina
- po
- okviri
- iz
- Games
- igre na srečo
- generacija
- generacije
- GitHub
- graf
- Panj
- Kako
- HTTPS
- izboljšanje
- Izboljšanje
- Izboljšave
- izboljšuje
- in
- vključuje
- Vključno
- primer
- notranji
- IT
- izstrelki
- Vodja
- upravlja
- upravitelj
- Povečajte
- Spomin
- MS
- množenje
- Novo
- vozlišča
- Številka
- open source
- zunaj
- performance
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igranje
- Prispevek
- prejšnja
- Cena
- cenitev
- v prvi vrsti
- procesorji
- Izdelek
- produktni vodja
- produktivnost
- strokovni
- zagotavljajo
- zagotavlja
- okolica
- sprostitev
- Rezultati
- Run
- tek
- sekund
- Storitev
- Storitve
- Razstave
- Enostavno
- Velikosti
- Software
- Razvoj programske opreme
- Spark
- SQL
- Še vedno
- shranjevanje
- shranjeni
- taka
- dovolj
- podpora
- miza
- Skupine
- testi
- O
- njihove
- čas
- do
- orodja
- Skupaj za plačilo
- us
- uporaba
- Video
- video igre
- Virginia
- web
- spletne storitve
- ki
- WHO
- delo
- deluje
- svet
- zefirnet