Amazon EMR надає керовану послугу для легкого запуску аналітичних програм за допомогою фреймворків з відкритим кодом, таких як Apache Spark, Hive, Presto, Trino, HBase та Flink. Середа виконання Amazon EMR для Іскритися та Престо включає в себе оптимізацію, яка забезпечує більш ніж удвічі покращення продуктивності порівняно з Apache Spark і Presto з відкритим кодом.
З випуском Amazon EMR 6.7 тепер ви можете використовувати Обчислювальна хмара Amazon Elastic (Amazon EC2) Екземпляри C7g, які використовують AWS Graviton3 процесори. Ці екземпляри покращують співвідношення ціни та продуктивності виконання робочих навантажень Spark на Amazon EMR на 7.93–13.35% порівняно з екземплярами попереднього покоління, залежно від розміру екземпляра. У цій публікації ми описуємо, як ми оцінювали перевагу ціни та ефективності.
Ефективність виконання Amazon EMR з примірниками EC2 C7g
Ми виконали контрольні запити TPC-DS 3 ТБ на Amazon EMR 6.9, використовуючи середовище виконання Amazon EMR для Apache Spark (сумісне з Apache Spark 3.3) з примірниками C7g. Дані зберігалися в Служба простого зберігання Amazon (Amazon S3), а результати порівнювали з еквівалентними кластерами C6g сімейства примірників попереднього покоління. Ми виміряли підвищення продуктивності, використовуючи загальний час виконання запиту та середнє геометричне значення часу виконання запиту для контрольних запитів TPC-DS 3 ТБ.
Наші результати показали покращення загальної продуктивності виконання запитів на 13.65–18.73% і покращення середнього геометричного на 16.98–20.28% у кластерах EMR із C7g порівняно з еквівалентними кластерами EMR із екземплярами C6g, залежно від розміру екземпляра. Порівнюючи витрати, ми помітили зниження вартості на 7.93–13.35% для кластера EMR із C7g порівняно з еквівалентом із C6g залежно від розміру екземпляра. Ми не порівнювали екземпляр C6g xlarge, оскільки він не мав достатньої пам’яті для виконання запитів.
У наведеній нижче таблиці наведено результати виконання контрольних запитів TPC-DS 3 ТБ за допомогою Amazon EMR 6.9 у порівнянні з еквівалентними кластерами C7g і C6g екземплярів EMR.
Розмір екземпляра | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Загальний розмір кластера (1 лідер + 5 основних вузлів) | 6 | 6 | 6 | 6 | 6 |
Загальний час виконання запиту на C6g (секунди) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Загальний час виконання запиту на C7g (секунди) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Повне покращення часу виконання запитів із C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Середнє геометричне час виконання запиту C6g (секунди) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Середнє геометричне час виконання запиту C7g (секунди) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Середнє геометричне покращення часу виконання запитів за допомогою C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
Ціна інстансу EC2 C6g ($ за годину) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
Ціна примірника EMR C6g ($ за годину) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) ціна інстансу ($ за годину) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Вартість роботи на C6g ($ за екземпляр) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
Ціна інстансу EC2 C7g ($ за годину) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
Ціна EMR C7g ($ за годину за екземпляр) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) Ціна інстансу C7g ($ за годину) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Вартість роботи на C7g ($ за екземпляр) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Загальне зниження витрат із C7g, включаючи підвищення продуктивності | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
На наступному графіку показано покращення кожного запиту, що спостерігаються в примірниках C7g 2xlarge порівняно з еквівалентними поколіннями C6g.
Методика бенчмаркінгу
Еталонний тест, який використовується в цій публікації, походить від галузевого стандарту тесту TPC-DS і використовує запити з Spark SQL Performance Tests GitHub repo з наступним фіксований застосовано.
Ми розрахували TCO, помноживши вартість за годину на кількість екземплярів у кластері та час, витрачений на виконання запитів у кластері. Ми використовували ціноутворення за запитом у Східному регіоні США (Північна Вірджинія) для всіх випадків.
Висновок
У цьому дописі ми описали, як ми оцінювали економічну вигоду від використання Amazon EMR з примірниками C7g порівняно з використанням еквівалентних примірників попереднього покоління. Використання цих нових екземплярів з Amazon EMR покращує ефективність витрат ще на 7–13%.
Про авторів
Al MS є менеджером із продуктів Amazon EMR у Amazon Web Services.
Кьонхьон Рьо є інженером з розробки програмного забезпечення EMR в Amazon Web Services. В основному він працює над проектуванням і створенням засобів автоматизації для внутрішніх команд і клієнтів, щоб максимально підвищити їх продуктивність. Поза роботою він є чемпіоном світу з професійних ігор у відставці, який досі любить грати у відеоігри.
Юйчжоу Сун є інженером з розробки програмного забезпечення для EMR в Amazon Web Services.
Стів Кунс є менеджером з розробки EMR в Amazon Web Services.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- через
- Додатковий
- AI
- ВСІ
- Amazon
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- аналітика
- та
- Apache
- Apache Spark
- застосування
- прикладної
- Автоматизація
- оскільки
- еталонний тест
- користь
- Створюємо
- розрахований
- чемпіон
- кластер
- порівняний
- порівняння
- сумісний
- обчислення
- Core
- Коштувати
- зниження витрат
- витрати
- Клієнти
- дані
- Залежно
- Отриманий
- описувати
- описаний
- проектування
- розробка
- DID
- легко
- Схід
- інженер
- Машинобудування
- користуватися
- Еквівалент
- оцінка
- Ефір (ETH)
- сім'я
- після
- каркаси
- від
- Games
- азартні ігри
- покоління
- покоління
- GitHub
- графік
- Вулик
- Як
- HTTPS
- удосконалювати
- поліпшення
- поліпшення
- поліпшується
- in
- includes
- У тому числі
- екземпляр
- внутрішній
- IT
- запуски
- лідер
- вдалося
- менеджер
- Максимізувати
- пам'ять
- MS
- множення
- Нові
- вузли
- номер
- з відкритим вихідним кодом
- поза
- продуктивність
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- пошта
- попередній
- price
- ціни без прихованих комісій
- в першу чергу
- процесори
- Product
- менеджер по продукції
- продуктивність
- професійний
- забезпечувати
- забезпечує
- регіон
- звільнити
- результати
- прогін
- біг
- seconds
- обслуговування
- Послуги
- Шоу
- простий
- Розмір
- Софтвер
- розробка програмного забезпечення
- Іскритися
- SQL
- Як і раніше
- зберігання
- зберігати
- такі
- достатній
- підтримка
- таблиця
- команди
- Тести
- Команда
- їх
- час
- до
- інструменти
- Усього:
- us
- використання
- Відео
- відеоігри
- Віргінія
- Web
- веб-сервіси
- який
- ВООЗ
- Work
- працює
- світ
- зефірнет