Amazon EMR запускает поддержку инстансов Amazon EC2 C7g (Graviton3), чтобы повысить рентабельность рабочих нагрузок Spark на 7–13 %.

Amazon EMR запускает поддержку инстансов Amazon EC2 C7g (Graviton3), чтобы повысить рентабельность рабочих нагрузок Spark на 7–13 %.

Исходный узел: 1935298

Амазонка ЭМИ предоставляет управляемый сервис для простого запуска аналитических приложений с использованием платформ с открытым исходным кодом, таких как Apache Spark, Hive, Presto, Trino, HBase и Flink. Среда выполнения Amazon EMR для Искриться и Presto включает оптимизации, которые обеспечивают повышение производительности более чем в два раза по сравнению с Apache Spark и Presto с открытым исходным кодом.

В Amazon EMR версии 6.7 теперь можно использовать Эластичное вычислительное облако Amazon (Amazon EC2) экземпляры C7g, использующие АМС Гравитон3 процессоры. Эти инстансы улучшают соотношение цены и качества рабочих нагрузок Spark в Amazon EMR на 7.93–13.35 % по сравнению с инстансами предыдущего поколения, в зависимости от размера инстанса. В этом посте мы описываем, как мы оценили соотношение цены и качества.

Производительность среды выполнения Amazon EMR с инстансами EC2 C7g

Мы выполнили контрольные запросы TPC-DS 3 ТБ в Amazon EMR 6.9, используя среду выполнения Amazon EMR для Apache Spark (совместимую с Apache Spark 3.3) с инстансами C7g. Данные хранились в Простой сервис хранения Amazon (Amazon S3), и результаты сравнивались с эквивалентными кластерами C6g из семейства экземпляров предыдущего поколения. Мы измерили повышение производительности, используя общее время выполнения запроса и среднее геометрическое времени выполнения запроса для тестовых запросов TPC-DS объемом 3 ТБ.

Наши результаты показали улучшение общей производительности выполнения запросов на 13.65–18.73 % и улучшение среднего геометрического на 16.98–20.28 % для кластеров EMR с экземплярами C7g по сравнению с эквивалентными кластерами EMR с экземплярами C6g, в зависимости от размера экземпляра. Сравнивая затраты, мы заметили снижение затрат на кластер EMR с C7.93g на 13.35–7 % по сравнению с эквивалентом C6g, в зависимости от размера экземпляра. Мы не тестировали экземпляр C6g xlarge, потому что у него не было достаточно памяти для выполнения запросов.

В следующей таблице показаны результаты выполнения тестовых запросов TPC-DS 3 ТБ с использованием Amazon EMR 6.9 по сравнению с эквивалентными кластерами EMR экземпляров C7g и C6g.

Размер экземпляра 16 XL 12 XL 8 XL 4 XL 2 XL
Общий размер кластера (1 лидер + 5 основных узлов) 6 6 6 6 6
Общее время выполнения запроса на C6g (секунды) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Общее время выполнения запроса на C7g (секунды) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Общее улучшение времени выполнения запросов с помощью C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Среднее геометрическое время выполнения запроса C6g (секунды) 22.2113 21.75459 23.38081 31.97192 45.41656
Среднее геометрическое время выполнения запроса C7g (секунды) 18.43905 17.65898 19.01684 25.48695 37.43737
Улучшение среднего геометрического времени выполнения запроса с помощью C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Стоимость инстанса EC2 C6g ($ в час) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Стоимость экземпляра EMR C6g ($ в час) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) цена экземпляра ($ в час) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Стоимость работы на C6g ($ за инстанс) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Стоимость инстанса EC2 C7g ($ в час) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Цена EMR C7g ($ в час за инстанс) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Стоимость инстанса C7g ($ в час) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Стоимость работы на C7g ($ за инстанс) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Общее снижение затрат с C7g, включая повышение производительности -7.93% -9.52% -9.32% -13.35% -11.13%

На следующем графике показаны улучшения для каждого запроса, наблюдаемые в экземплярах C7g 2xlarge по сравнению с эквивалентными поколениями C6g.

Методология сравнительного анализа

Тест, используемый в этом посте, основан на стандартном отраслевом тесте TPC-DS и использует запросы из Репозиторий GitHub с тестами производительности Spark SQL с GMT исправления применяется.

Мы рассчитали совокупную стоимость владения, умножив стоимость часа на количество экземпляров в кластере и время, необходимое для выполнения запросов в кластере. Мы использовали ценообразование по запросу в регионе Восток США (Северная Вирджиния) для всех случаев.

Заключение

В этом посте мы описали, как мы оценили соотношение цены и качества при использовании Amazon EMR с инстансами C7g по сравнению с использованием эквивалентных инстансов предыдущего поколения. Использование этих новых инстансов с Amazon EMR повышает рентабельность еще на 7–13 %.


Об авторах

ИИ МСАль МС — менеджер по продукту Amazon EMR в Amazon Web Services.

Кёнхён Рю работает инженером по разработке программного обеспечения для EMR в Amazon Web Services. В основном он занимается проектированием и созданием инструментов автоматизации для внутренних команд и клиентов, чтобы максимизировать их производительность. Вне работы он чемпион мира по профессиональным играм на пенсии, который до сих пор любит играть в видеоигры.

Ючжоу Сунь работает инженером-разработчиком программного обеспечения для EMR в Amazon Web Services.

Стив Кунсе является техническим менеджером по EMR в Amazon Web Services.

Отметка времени:

Больше от AWS Большие данные