Az Amazon EMR elindítja az Amazon EC2 C7g (Graviton3) példányok támogatását, hogy 7–13%-kal javítsa a Spark-terhelések költségteljesítményét

Az Amazon EMR elindítja az Amazon EC2 C7g (Graviton3) példányok támogatását, hogy 7–13%-kal javítsa a Spark-terhelések költségteljesítményét

Forrás csomópont: 1935298

Amazon EMR felügyelt szolgáltatást biztosít az analitikai alkalmazások egyszerű futtatásához olyan nyílt forráskódú keretrendszerek használatával, mint az Apache Spark, Hive, Presto, Trino, HBase és Flink. Az Amazon EMR futási ideje a Szikra és a Gyors olyan optimalizációkat tartalmaz, amelyek több mint kétszeres teljesítményjavulást biztosítanak a nyílt forráskódú Apache Sparkhoz és Presto-hoz képest.

Az Amazon EMR 6.7-as kiadásával most már használhatja Amazon rugalmas számítási felhő (Amazon EC2) C7g példányok, amelyek a AWS Graviton3 processzorok. Ezek a példányok a példány méretétől függően 7.93–13.35%-kal javítják az Amazon EMR-en futó Spark-munkaterhelések ár-teljesítményét az előző generációs példányokhoz képest. Ebben a bejegyzésben leírjuk, hogyan becsültük meg az ár-teljesítmény arányt.

Amazon EMR futásidejű teljesítmény EC2 C7g példányokkal

TPC-DS 3 TB benchmark lekérdezéseket futtattunk az Amazon EMR 6.9-en az Apache Spark Amazon EMR futtatókörnyezetével (kompatibilis az Apache Spark 3.3-mal) C7g példányokkal. Az adatok tárolása megtörtént Amazon egyszerű tárolási szolgáltatás (Amazon S3), és az eredményeket az előző generációs példánycsalád egyenértékű C6g klasztereivel hasonlították össze. A teljesítménynövekedést a teljes lekérdezési futásidő és a lekérdezés futási idejének geometriai átlaga alapján mértük a TPC-DS 3 TB benchmark lekérdezések között.

Eredményeink 13.65–18.73%-os javulást mutattak a teljes lekérdezés futásidejű teljesítményében, és 16.98–20.28%-os geometriai átlagjavulást mutattak a C7g-t használó EMR-fürtökön a C6g-példányokat tartalmazó egyenértékű EMR-fürtökhöz képest, a példány méretétől függően. A költségek összehasonlításakor a példánymérettől függően 7.93–13.35%-os költségcsökkenést figyeltünk meg a C7g-vel rendelkező EMR-klaszterben a C6g-vel egyenértékűhez képest. Nem vizsgáltuk meg a C6g xlarge példányt, mert nem volt elegendő memóriája a lekérdezések futtatásához.

A következő táblázat a TPC-DS 3 TB benchmark lekérdezések Amazon EMR 6.9 használatával végzett futtatásának eredményeit mutatja a megfelelő C7g és C6g példány EMR-fürtökhöz képest.

Példány mérete 16 XL 12 XL 8 XL 4 XL 2 XL
A fürt teljes mérete (1 vezető + 5 fő csomópont) 6 6 6 6 6
Teljes lekérdezési futásidő C6g-n (másodperc) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Teljes lekérdezési futásidő C7g-n (másodperc) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Teljes lekérdezés futási idő javítása a C7g segítségével 13.65% 15.13% 14.95% 18.73% 16.64%
Geometriai átlag lekérdezés futási ideje C6g (másodperc) 22.2113 21.75459 23.38081 31.97192 45.41656
Geometriai átlag lekérdezés futási ideje C7g (másodperc) 18.43905 17.65898 19.01684 25.48695 37.43737
A geometriai átlag lekérdezés futásidejének javítása a C7g segítségével 16.98% 18.83% 18.66% 20.28% 17.57%
EC2 C6g példány ára ($ óránként) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g példány ára ($ óránként) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) példány ára ($ óránként) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
A C6g-n való futtatás költsége ($ példányonként) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g példány ára ($ óránként) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g ár ($ óránként példányonként) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g példány ára ($ óránként) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
A C7g-n való futtatás költsége ($ példányonként) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Teljes költségcsökkentés a C7g-vel, beleértve a teljesítmény javítását -7.93% -9.52% -9.32% -13.35% -11.13%

A következő grafikon a C7g 2xlarge példányokon megfigyelt lekérdezésenkénti fejlesztéseket mutatja az egyenértékű C6g generációkhoz képest.

Benchmarking módszertana

Az ebben a bejegyzésben használt benchmark az ipari szabványos TPC-DS benchmarkból származik, és a Spark SQL Performance Tests GitHub repo a következőkkel javítások alkalmazott.

A TCO-t úgy számítottuk ki, hogy az óránkénti költséget megszoroztuk a fürtben lévő példányok számával és a lekérdezések fürtön történő futtatásához szükséges idővel. Az USA keleti (N. Virginia) régiójában minden esetben igény szerinti árazást alkalmaztunk.

Következtetés

Ebben a bejegyzésben leírtuk, hogyan becsültük meg az Amazon EMR C7g-példányokkal való használatának költség-teljesítmény-előnyét az előző generációs példányokhoz képest. Ezeknek az új példányoknak az Amazon EMR-rel való használata további 7–13%-kal javítja a költség-teljesítményt.


A szerzőkről

AI MSAl MS az Amazon EMR termékmenedzsere az Amazon Web Servicesnél.

Kyeonghyun Ryoo az Amazon Web Services EMR szoftverfejlesztő mérnöke. Elsősorban automatizálási eszközök tervezésével és építésével foglalkozik belső csapatok és ügyfelek számára, hogy maximalizálják termelékenységüket. A munkán kívül a professzionális játékok visszavonult világbajnoka, aki még mindig szívesen játszik videojátékokkal.

Yuzhou Sun az Amazon Web Services EMR szoftverfejlesztő mérnöke.

Steve Koonce az Amazon Web Services EMR mérnöki menedzsere.

Időbélyeg:

Még több AWS Big Data