Амазонка ЭМИ предоставляет управляемый сервис для простого запуска аналитических приложений с использованием платформ с открытым исходным кодом, таких как Apache Spark, Hive, Presto, Trino, HBase и Flink. Среда выполнения Amazon EMR для Искриться и Presto включает оптимизации, которые обеспечивают повышение производительности более чем в два раза по сравнению с Apache Spark и Presto с открытым исходным кодом.
В Amazon EMR версии 6.7 теперь можно использовать Эластичное вычислительное облако Amazon (Amazon EC2) экземпляры C7g, использующие АМС Гравитон3 процессоры. Эти инстансы улучшают соотношение цены и качества рабочих нагрузок Spark в Amazon EMR на 7.93–13.35 % по сравнению с инстансами предыдущего поколения, в зависимости от размера инстанса. В этом посте мы описываем, как мы оценили соотношение цены и качества.
Производительность среды выполнения Amazon EMR с инстансами EC2 C7g
Мы выполнили контрольные запросы TPC-DS 3 ТБ в Amazon EMR 6.9, используя среду выполнения Amazon EMR для Apache Spark (совместимую с Apache Spark 3.3) с инстансами C7g. Данные хранились в Простой сервис хранения Amazon (Amazon S3), и результаты сравнивались с эквивалентными кластерами C6g из семейства экземпляров предыдущего поколения. Мы измерили повышение производительности, используя общее время выполнения запроса и среднее геометрическое времени выполнения запроса для тестовых запросов TPC-DS объемом 3 ТБ.
Наши результаты показали улучшение общей производительности выполнения запросов на 13.65–18.73 % и улучшение среднего геометрического на 16.98–20.28 % для кластеров EMR с экземплярами C7g по сравнению с эквивалентными кластерами EMR с экземплярами C6g, в зависимости от размера экземпляра. Сравнивая затраты, мы заметили снижение затрат на кластер EMR с C7.93g на 13.35–7 % по сравнению с эквивалентом C6g, в зависимости от размера экземпляра. Мы не тестировали экземпляр C6g xlarge, потому что у него не было достаточно памяти для выполнения запросов.
В следующей таблице показаны результаты выполнения тестовых запросов TPC-DS 3 ТБ с использованием Amazon EMR 6.9 по сравнению с эквивалентными кластерами EMR экземпляров C7g и C6g.
Размер экземпляра | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Общий размер кластера (1 лидер + 5 основных узлов) | 6 | 6 | 6 | 6 | 6 |
Общее время выполнения запроса на C6g (секунды) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Общее время выполнения запроса на C7g (секунды) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Общее улучшение времени выполнения запросов с помощью C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Среднее геометрическое время выполнения запроса C6g (секунды) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Среднее геометрическое время выполнения запроса C7g (секунды) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Улучшение среднего геометрического времени выполнения запроса с помощью C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
Стоимость инстанса EC2 C6g ($ в час) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
Стоимость экземпляра EMR C6g ($ в час) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) цена экземпляра ($ в час) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Стоимость работы на C6g ($ за инстанс) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
Стоимость инстанса EC2 C7g ($ в час) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
Цена EMR C7g ($ в час за инстанс) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) Стоимость инстанса C7g ($ в час) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Стоимость работы на C7g ($ за инстанс) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Общее снижение затрат с C7g, включая повышение производительности | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
На следующем графике показаны улучшения для каждого запроса, наблюдаемые в экземплярах C7g 2xlarge по сравнению с эквивалентными поколениями C6g.
Методология сравнительного анализа
Тест, используемый в этом посте, основан на стандартном отраслевом тесте TPC-DS и использует запросы из Репозиторий GitHub с тестами производительности Spark SQL с GMT исправления применяется.
Мы рассчитали совокупную стоимость владения, умножив стоимость часа на количество экземпляров в кластере и время, необходимое для выполнения запросов в кластере. Мы использовали ценообразование по запросу в регионе Восток США (Северная Вирджиния) для всех случаев.
Заключение
В этом посте мы описали, как мы оценили соотношение цены и качества при использовании Amazon EMR с инстансами C7g по сравнению с использованием эквивалентных инстансов предыдущего поколения. Использование этих новых инстансов с Amazon EMR повышает рентабельность еще на 7–13 %.
Об авторах
Аль МС — менеджер по продукту Amazon EMR в Amazon Web Services.
Кёнхён Рю работает инженером по разработке программного обеспечения для EMR в Amazon Web Services. В основном он занимается проектированием и созданием инструментов автоматизации для внутренних команд и клиентов, чтобы максимизировать их производительность. Вне работы он чемпион мира по профессиональным играм на пенсии, который до сих пор любит играть в видеоигры.
Ючжоу Сунь работает инженером-разработчиком программного обеспечения для EMR в Amazon Web Services.
Стив Кунсе является техническим менеджером по EMR в Amazon Web Services.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- через
- дополнительный
- AI
- Все
- Amazon
- Amazon EC2
- Амазонка ЭМИ
- Amazon Web Services
- аналитика
- и
- апаш
- Apache Spark
- Приложения
- прикладной
- автоматизация
- , так как:
- эталонный тест
- польза
- Строительство
- рассчитанный
- чемпион
- Кластер
- сравненный
- сравнив
- совместим
- Вычисление
- Основные
- Цена
- снижение расходов
- Расходы
- Клиенты
- данным
- в зависимости
- Производный
- описывать
- описано
- проектирование
- Развитие
- DID
- легко
- восток
- инженер
- Проект и
- пользоваться
- Эквивалент
- к XNUMX году
- Эфир (ETH)
- семья
- после
- каркасы
- от
- Игры
- игровой
- поколение
- поколения
- GitHub
- график
- Hive
- Как
- HTTPS
- улучшать
- улучшение
- улучшение
- улучшается
- in
- включает в себя
- В том числе
- пример
- в нашей внутренней среде,
- IT
- запускает
- лидер
- управляемого
- менеджер
- Максимизировать
- Память
- MS
- умножения
- Новые
- узлы
- номер
- с открытым исходным кодом
- внешнюю
- производительность
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- После
- предыдущий
- цена
- цены
- в первую очередь
- процессоры
- Продукт
- Менеджер по продукции
- производительность
- профессиональный
- обеспечивать
- приводит
- область
- освободить
- Итоги
- Run
- Бег
- секунды
- обслуживание
- Услуги
- Шоу
- просто
- Размер
- Software
- разработка программного обеспечения
- Искриться
- SQL
- По-прежнему
- диск
- хранить
- такие
- достаточный
- поддержка
- ТАБЛИЦЫ
- команды
- тестов
- Ассоциация
- их
- время
- в
- инструменты
- Всего
- us
- использование
- Видео
- видеоигры
- Виргиния
- Web
- веб-сервисы
- , которые
- КТО
- Работа
- работает
- Мир
- зефирнет