Amazon EMR запускає підтримку екземплярів Amazon EC2 C7g (Graviton3), щоб підвищити економічність робочих навантажень Spark на 7–13%

Amazon EMR запускає підтримку екземплярів Amazon EC2 C7g (Graviton3), щоб підвищити економічність робочих навантажень Spark на 7–13%

Вихідний вузол: 1935298

Amazon EMR надає керовану послугу для легкого запуску аналітичних програм за допомогою фреймворків з відкритим кодом, таких як Apache Spark, Hive, Presto, Trino, HBase та Flink. Середа виконання Amazon EMR для Іскритися та Престо включає в себе оптимізацію, яка забезпечує більш ніж удвічі покращення продуктивності порівняно з Apache Spark і Presto з відкритим кодом.

З випуском Amazon EMR 6.7 тепер ви можете використовувати Обчислювальна хмара Amazon Elastic (Amazon EC2) Екземпляри C7g, які використовують AWS Graviton3 процесори. Ці екземпляри покращують співвідношення ціни та продуктивності виконання робочих навантажень Spark на Amazon EMR на 7.93–13.35% порівняно з екземплярами попереднього покоління, залежно від розміру екземпляра. У цій публікації ми описуємо, як ми оцінювали перевагу ціни та ефективності.

Ефективність виконання Amazon EMR з примірниками EC2 C7g

Ми виконали контрольні запити TPC-DS 3 ТБ на Amazon EMR 6.9, використовуючи середовище виконання Amazon EMR для Apache Spark (сумісне з Apache Spark 3.3) з примірниками C7g. Дані зберігалися в Служба простого зберігання Amazon (Amazon S3), а результати порівнювали з еквівалентними кластерами C6g сімейства примірників попереднього покоління. Ми виміряли підвищення продуктивності, використовуючи загальний час виконання запиту та середнє геометричне значення часу виконання запиту для контрольних запитів TPC-DS 3 ТБ.

Наші результати показали покращення загальної продуктивності виконання запитів на 13.65–18.73% і покращення середнього геометричного на 16.98–20.28% у кластерах EMR із C7g порівняно з еквівалентними кластерами EMR із екземплярами C6g, залежно від розміру екземпляра. Порівнюючи витрати, ми помітили зниження вартості на 7.93–13.35% для кластера EMR із C7g порівняно з еквівалентом із C6g залежно від розміру екземпляра. Ми не порівнювали екземпляр C6g xlarge, оскільки він не мав достатньої пам’яті для виконання запитів.

У наведеній нижче таблиці наведено результати виконання контрольних запитів TPC-DS 3 ТБ за допомогою Amazon EMR 6.9 у порівнянні з еквівалентними кластерами C7g і C6g екземплярів EMR.

Розмір екземпляра 16 XL 12 XL 8 XL 4 XL 2 XL
Загальний розмір кластера (1 лідер + 5 основних вузлів) 6 6 6 6 6
Загальний час виконання запиту на C6g (секунди) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Загальний час виконання запиту на C7g (секунди) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Повне покращення часу виконання запитів із C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Середнє геометричне час виконання запиту C6g (секунди) 22.2113 21.75459 23.38081 31.97192 45.41656
Середнє геометричне час виконання запиту C7g (секунди) 18.43905 17.65898 19.01684 25.48695 37.43737
Середнє геометричне покращення часу виконання запитів за допомогою C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Ціна інстансу EC2 C6g ($ за годину) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Ціна примірника EMR C6g ($ за годину) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) ціна інстансу ($ за годину) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Вартість роботи на C6g ($ за екземпляр) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Ціна інстансу EC2 C7g ($ за годину) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Ціна EMR C7g ($ за годину за екземпляр) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Ціна інстансу C7g ($ за годину) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Вартість роботи на C7g ($ за екземпляр) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Загальне зниження витрат із C7g, включаючи підвищення продуктивності -7.93% -9.52% -9.32% -13.35% -11.13%

На наступному графіку показано покращення кожного запиту, що спостерігаються в примірниках C7g 2xlarge порівняно з еквівалентними поколіннями C6g.

Методика бенчмаркінгу

Еталонний тест, який використовується в цій публікації, походить від галузевого стандарту тесту TPC-DS і використовує запити з Spark SQL Performance Tests GitHub repo з наступним фіксований застосовано.

Ми розрахували TCO, помноживши вартість за годину на кількість екземплярів у кластері та час, витрачений на виконання запитів у кластері. Ми використовували ціноутворення за запитом у Східному регіоні США (Північна Вірджинія) для всіх випадків.

Висновок

У цьому дописі ми описали, як ми оцінювали економічну вигоду від використання Amazon EMR з примірниками C7g порівняно з використанням еквівалентних примірників попереднього покоління. Використання цих нових екземплярів з Amazon EMR покращує ефективність витрат ще на 7–13%.


Про авторів

AI MSAl MS є менеджером із продуктів Amazon EMR у Amazon Web Services.

Кьонхьон Рьо є інженером з розробки програмного забезпечення EMR в Amazon Web Services. В основному він працює над проектуванням і створенням засобів автоматизації для внутрішніх команд і клієнтів, щоб максимально підвищити їх продуктивність. Поза роботою він є чемпіоном світу з професійних ігор у відставці, який досі любить грати у відеоігри.

Юйчжоу Сун є інженером з розробки програмного забезпечення для EMR в Amazon Web Services.

Стів Кунс є менеджером з розробки EMR в Amazon Web Services.

Часова мітка:

Більше від Великі дані AWS