Amazon EMR oferă un serviciu gestionat pentru a rula cu ușurință aplicații de analiză folosind cadre open-source, cum ar fi Apache Spark, Hive, Presto, Trino, HBase și Flink. Timpul de execuție Amazon EMR pentru Scânteie și Presto include optimizări care oferă îmbunătățiri de performanță de peste două ori mai mari decât cu Apache Spark și Presto open-source.
Cu Amazon EMR versiunea 6.7, acum puteți utiliza Cloud Elastic de calcul Amazon (Amazon EC2) Instanțele C7g, care utilizează AWS Graviton3 procesoare. Aceste instanțe îmbunătățesc performanța preț-performanță a rulării sarcinilor de lucru Spark pe Amazon EMR cu 7.93–13.35% față de instanțe din generația anterioară, în funcție de dimensiunea instanței. În această postare, descriem modul în care am estimat beneficiul preț-performanță.
Performanță de rulare Amazon EMR cu instanțe EC2 C7g
Am rulat interogări de referință TPC-DS 3 TB pe Amazon EMR 6.9 utilizând timpul de execuție Amazon EMR pentru Apache Spark (compatibil cu Apache Spark 3.3) cu instanțe C7g. Datele au fost stocate în Serviciul Amazon de stocare simplă (Amazon S3), iar rezultatele au fost comparate cu clustere C6g echivalente din familia de instanțe din generația anterioară. Am măsurat îmbunătățirile de performanță utilizând durata totală de rulare a interogării și media geometrică a duratei de rulare a interogării pentru interogările de referință TPC-DS de 3 TB.
Rezultatele noastre au arătat o îmbunătățire cu 13.65–18.73% a performanței totale de rulare a interogării și o îmbunătățire cu 16.98–20.28% a mediei geometrice pe clusterele EMR cu C7g în comparație cu clusterele EMR echivalente cu instanțe C6g, în funcție de dimensiunea instanței. În compararea costurilor, am observat o reducere de 7.93–13.35% a costurilor pe clusterul EMR cu C7g în comparație cu echivalentul cu C6g, în funcție de dimensiunea instanței. Nu am evaluat instanța C6g xlarge deoarece nu avea suficientă memorie pentru a rula interogările.
Următorul tabel arată rezultatele de la rularea interogărilor de referință TPC-DS 3 TB folosind Amazon EMR 6.9 în comparație cu clusterele EMR de instanță C7g și C6g echivalente.
Dimensiunea instanței | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Dimensiunea totală a clusterului (1 lider + 5 noduri de bază) | 6 | 6 | 6 | 6 | 6 |
Durată totală de rulare a interogării pe C6g (secunde) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Durată totală de rulare a interogării pe C7g (secunde) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Îmbunătățirea totală a timpului de rulare a interogărilor cu C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Timp de rulare a interogării cu media geometrică C6g (secunde) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Timp de rulare a interogării cu media geometrică C7g (secunde) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Îmbunătățirea timpului de execuție a interogării cu media geometrică cu C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
Prețul instanței EC2 C6g ($ pe oră) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
Prețul instanței EMR C6g ($ pe oră) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) prețul instanței ($ pe oră) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Costul rulării pe C6g ($ per instanță) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
Prețul instanței EC2 C7g ($ pe oră) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
Prețul EMR C7g (dolari pe oră pe caz) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) Prețul instanței C7g ($ pe oră) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Costul rulării pe C7g ($ per instanță) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Reducerea totală a costurilor cu C7g, inclusiv îmbunătățirea performanței | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
Următorul grafic arată îmbunătățirile pe interogare observate pe instanțele C7g 2xlarge în comparație cu generațiile echivalente C6g.
Metodologia de benchmarking
Benchmark-ul utilizat în această postare este derivat din standardul de referință TPC-DS din industrie și utilizează interogări din Teste de performanță Spark SQL Repo GitHub cu următoarele remedieri aplicat.
Am calculat TCO înmulțind costul pe oră cu numărul de instanțe din cluster și cu timpul necesar pentru a rula interogările pe cluster. Am folosit prețuri la cerere în Regiunea de Est a SUA (Virginia de Nord) pentru toate cazurile.
Concluzie
În această postare, am descris modul în care am estimat beneficiul cost-performanță din utilizarea Amazon EMR cu instanțe C7g, în comparație cu utilizarea instanțelor echivalente din generația anterioară. Utilizarea acestor noi instanțe cu Amazon EMR îmbunătățește performanța costurilor cu încă 7-13%.
Despre autori
Al MS este manager de produs pentru Amazon EMR la Amazon Web Services.
Kyeonghyun Ryoo este inginer de dezvoltare software pentru EMR la Amazon Web Services. El lucrează în primul rând la proiectarea și construirea de instrumente de automatizare pentru echipele interne și clienți pentru a maximiza productivitatea acestora. În afara serviciului, este un campion mondial pensionar la jocurile profesionale, căruia îi place încă să joace jocuri video.
Yuzhou Sun este inginer de dezvoltare software pentru EMR la Amazon Web Services.
Steve Koonce este manager de inginerie pentru EMR la Amazon Web Services.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- peste
- Suplimentar
- AI
- TOATE
- Amazon
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- Google Analytics
- și
- Apache
- Apache Spark
- aplicatii
- aplicat
- Automatizare
- deoarece
- Benchmark
- beneficia
- Clădire
- calculată
- campion
- Grup
- comparație
- compararea
- compatibil
- Calcula
- Nucleu
- A costat
- reducerea costurilor
- Cheltuieli
- clienţii care
- de date
- În funcție
- Derivat
- descrie
- descris
- proiect
- Dezvoltare
- FĂCUT
- cu ușurință
- Est
- inginer
- Inginerie
- se bucura
- Echivalent
- estimativ
- Eter (ETH)
- familie
- următor
- cadre
- din
- Jocuri
- jocuri
- generaţie
- generații
- GitHub
- grafic
- Stup
- Cum
- HTTPS
- îmbunătăţi
- îmbunătățire
- îmbunătățiri
- îmbunătăţeşte
- in
- include
- Inclusiv
- instanță
- intern
- IT
- lansează
- lider
- gestionate
- manager
- Maximaliza
- Memorie
- MS
- multiplicându-se
- Nou
- noduri
- număr
- open-source
- exterior
- performanță
- Plato
- Informații despre date Platon
- PlatoData
- joc
- Post
- precedent
- preţ
- de stabilire a prețurilor
- în primul rând
- procesoare
- Produs
- manager de produs
- productivitate
- profesional
- furniza
- furnizează
- regiune
- eliberaţi
- REZULTATE
- Alerga
- funcţionare
- secunde
- serviciu
- Servicii
- Emisiuni
- simplu
- Mărimea
- Software
- de dezvoltare de software
- Scânteie
- SQL
- Încă
- depozitare
- stocate
- astfel de
- suficient
- a sustine
- tabel
- echipe
- teste
- lor
- timp
- la
- Unelte
- Total
- us
- utilizare
- Video
- jocuri video
- Virginia
- web
- servicii web
- care
- OMS
- Apartamente
- fabrică
- lume
- zephyrnet