Amazon EMR felügyelt szolgáltatást biztosít az analitikai alkalmazások egyszerű futtatásához olyan nyílt forráskódú keretrendszerek használatával, mint az Apache Spark, Hive, Presto, Trino, HBase és Flink. Az Amazon EMR futási ideje a Szikra és a Gyors olyan optimalizációkat tartalmaz, amelyek több mint kétszeres teljesítményjavulást biztosítanak a nyílt forráskódú Apache Sparkhoz és Presto-hoz képest.
Az Amazon EMR 6.7-as kiadásával most már használhatja Amazon rugalmas számítási felhő (Amazon EC2) C7g példányok, amelyek a AWS Graviton3 processzorok. Ezek a példányok a példány méretétől függően 7.93–13.35%-kal javítják az Amazon EMR-en futó Spark-munkaterhelések ár-teljesítményét az előző generációs példányokhoz képest. Ebben a bejegyzésben leírjuk, hogyan becsültük meg az ár-teljesítmény arányt.
Amazon EMR futásidejű teljesítmény EC2 C7g példányokkal
TPC-DS 3 TB benchmark lekérdezéseket futtattunk az Amazon EMR 6.9-en az Apache Spark Amazon EMR futtatókörnyezetével (kompatibilis az Apache Spark 3.3-mal) C7g példányokkal. Az adatok tárolása megtörtént Amazon egyszerű tárolási szolgáltatás (Amazon S3), és az eredményeket az előző generációs példánycsalád egyenértékű C6g klasztereivel hasonlították össze. A teljesítménynövekedést a teljes lekérdezési futásidő és a lekérdezés futási idejének geometriai átlaga alapján mértük a TPC-DS 3 TB benchmark lekérdezések között.
Eredményeink 13.65–18.73%-os javulást mutattak a teljes lekérdezés futásidejű teljesítményében, és 16.98–20.28%-os geometriai átlagjavulást mutattak a C7g-t használó EMR-fürtökön a C6g-példányokat tartalmazó egyenértékű EMR-fürtökhöz képest, a példány méretétől függően. A költségek összehasonlításakor a példánymérettől függően 7.93–13.35%-os költségcsökkenést figyeltünk meg a C7g-vel rendelkező EMR-klaszterben a C6g-vel egyenértékűhez képest. Nem vizsgáltuk meg a C6g xlarge példányt, mert nem volt elegendő memóriája a lekérdezések futtatásához.
A következő táblázat a TPC-DS 3 TB benchmark lekérdezések Amazon EMR 6.9 használatával végzett futtatásának eredményeit mutatja a megfelelő C7g és C6g példány EMR-fürtökhöz képest.
Példány mérete | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
A fürt teljes mérete (1 vezető + 5 fő csomópont) | 6 | 6 | 6 | 6 | 6 |
Teljes lekérdezési futásidő C6g-n (másodperc) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Teljes lekérdezési futásidő C7g-n (másodperc) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Teljes lekérdezés futási idő javítása a C7g segítségével | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Geometriai átlag lekérdezés futási ideje C6g (másodperc) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Geometriai átlag lekérdezés futási ideje C7g (másodperc) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
A geometriai átlag lekérdezés futásidejének javítása a C7g segítségével | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
EC2 C6g példány ára ($ óránként) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
EMR C6g példány ára ($ óránként) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) példány ára ($ óránként) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
A C6g-n való futtatás költsége ($ példányonként) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
EC2 C7g példány ára ($ óránként) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
EMR C7g ár ($ óránként példányonként) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) C7g példány ára ($ óránként) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
A C7g-n való futtatás költsége ($ példányonként) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Teljes költségcsökkentés a C7g-vel, beleértve a teljesítmény javítását | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
A következő grafikon a C7g 2xlarge példányokon megfigyelt lekérdezésenkénti fejlesztéseket mutatja az egyenértékű C6g generációkhoz képest.
Benchmarking módszertana
Az ebben a bejegyzésben használt benchmark az ipari szabványos TPC-DS benchmarkból származik, és a Spark SQL Performance Tests GitHub repo a következőkkel javítások alkalmazott.
A TCO-t úgy számítottuk ki, hogy az óránkénti költséget megszoroztuk a fürtben lévő példányok számával és a lekérdezések fürtön történő futtatásához szükséges idővel. Az USA keleti (N. Virginia) régiójában minden esetben igény szerinti árazást alkalmaztunk.
Következtetés
Ebben a bejegyzésben leírtuk, hogyan becsültük meg az Amazon EMR C7g-példányokkal való használatának költség-teljesítmény-előnyét az előző generációs példányokhoz képest. Ezeknek az új példányoknak az Amazon EMR-rel való használata további 7–13%-kal javítja a költség-teljesítményt.
A szerzőkről
Al MS az Amazon EMR termékmenedzsere az Amazon Web Servicesnél.
Kyeonghyun Ryoo az Amazon Web Services EMR szoftverfejlesztő mérnöke. Elsősorban automatizálási eszközök tervezésével és építésével foglalkozik belső csapatok és ügyfelek számára, hogy maximalizálják termelékenységüket. A munkán kívül a professzionális játékok visszavonult világbajnoka, aki még mindig szívesen játszik videojátékokkal.
Yuzhou Sun az Amazon Web Services EMR szoftverfejlesztő mérnöke.
Steve Koonce az Amazon Web Services EMR mérnöki menedzsere.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- át
- További
- AI
- Minden termék
- amazon
- Amazon EC2
- Amazon EMR
- Az Amazon Web Services
- analitika
- és a
- Apache
- Apache Spark
- alkalmazások
- alkalmazott
- Automatizálás
- mert
- benchmark
- haszon
- Épület
- számított
- bajnok
- Fürt
- képest
- összehasonlítva
- összeegyeztethető
- Kiszámít
- Mag
- Költség
- költségcsökkentés
- kiadások
- Ügyfelek
- dátum
- attól
- Származtatott
- leírni
- leírt
- tervezés
- Fejlesztés
- DID
- könnyen
- Keleti
- mérnök
- Mérnöki
- élvez
- Egyenértékű
- becsült
- Eter (ETH)
- család
- következő
- keretek
- ból ből
- Games
- szerencsejáték
- generáció
- generációk
- GitHub
- grafikon
- Kaptár
- Hogyan
- HTTPS
- javul
- javulás
- fejlesztések
- javítja
- in
- magában foglalja a
- Beleértve
- példa
- belső
- IT
- elindítja
- vezető
- sikerült
- menedzser
- Maximize
- Memory design
- MS
- szaporodását
- Új
- csomópontok
- szám
- nyílt forráskódú
- kívül
- teljesítmény
- Plató
- Platón adatintelligencia
- PlatoData
- játék
- állás
- előző
- ár
- árazás
- elsősorban
- processzorok
- Termékek
- termék menedzser
- termelékenység
- szakmai
- ad
- biztosít
- vidék
- engedje
- Eredmények
- futás
- futás
- másodperc
- szolgáltatás
- Szolgáltatások
- Műsorok
- Egyszerű
- Méret
- szoftver
- szoftverfejlesztés
- Szikra
- SQL
- Még mindig
- tárolás
- memorizált
- ilyen
- elegendő
- támogatás
- táblázat
- csapat
- tesztek
- A
- azok
- idő
- nak nek
- szerszámok
- Végösszeg
- us
- használ
- videó
- videojátékok
- Virginia
- háló
- webes szolgáltatások
- ami
- WHO
- Munka
- művek
- világ
- zephyrnet