Зменште витрати на кластер Amazon EMR до 19% за допомогою нових удосконалень у керованому масштабуванні Amazon EMR

Зменште витрати на кластер Amazon EMR до 19% за допомогою нових удосконалень у керованому масштабуванні Amazon EMR

Вихідний вузол: 1985302

У червні 2020 року AWS оголосила про загальну доступність Кероване масштабування Amazon EMR. За допомогою EMR Managed Scaling ви вказуєте мінімальні та максимальні обмеження обчислень для своїх кластерів, а Amazon EMR автоматично змінює розмір вашого кластера для оптимальної продуктивності та використання ресурсів. EMR Managed Scaling постійно відстежує ключові показники, пов’язані з робочим навантаженням, і використовує алгоритм, який оптимізує розмір кластера для найкращого використання ресурсів. Враховуючи, що функція повністю керована, удосконалення алгоритму реалізуються негайно без необхідності оновлення версії. Amazon EMR може збільшувати масштаб кластера під час пікових навантажень і плавно зменшувати його під час періодів простою, зменшуючи ваші витрати та оптимізуючи потужність кластера для найкращої продуктивності.

Протягом 2022 року ми внесли численні вдосконалення в алгоритм керованого масштабування EMR. Завдяки цим удосконаленням ми помітили, що для кластерів із підтримкою EMR Managed Scaling коефіцієнт використання покращився до 15 відсотків, а загальні витрати зменшилися ще до 19 відсотків. Починаючи з середини грудня 2022 року, покращення EMR Managed Scaling було ввімкнено за замовчуванням для кластерів, які використовують Amazon EMR версії 5.34.0 і пізнішої версії та Amazon EMR версії 6.4.0 і пізнішої версії як для нових, так і для існуючих кластерів. Крім того, враховуючи, що функція повністю керована, ви отримаєте новий оптимізований алгоритм керованого масштабування за замовчуванням, і вам не потрібно нічого робити.

Нижче наведено деякі з ключових удосконалень, які ми ввімкнули для EMR Managed Scaling:

  • Покращене використання кластера з цільовим зменшенням кластера EMR
  • Зниження витрат за рахунок запобігання зменшенню екземплярів, які зберігають проміжні дані перемішування за допомогою Розпізнавання даних Spark Shuffle
  • Покращене використання кластера та зниження витрат завдяки поступовому розширенню кластера EMR

Історії успіху клієнтів

Як вдосконалений алгоритм керованого масштабування EMR допоміг технологічному підприємству зменшити витрати:

Щоб проілюструвати економію коштів на прикладах, ми розглянули кластери EMR для технологічного підприємства, яке активно використовує Amazon EMR для обробки платіжних даних у реальному часі між Kafka та S3 за допомогою Spark. Вони запускають постійний кластер EMR з EMR версії 5.35 і мають увімкнене кероване масштабування EMR. Наступна інформаційна панель Amazon CloudWatch показує, як починаючи з 21 грудня покращений алгоритм керованого масштабування (загальна кількість запитаних вузлів) лише 70 вузлів порівняно з попереднім алгоритмом керованого масштабування, який передбачав 179 вузлів для подібного профілю роботи. Чим менша кількість ресурсів, наданих для виконання ваших завдань, тим нижча загальна вартість вашого кластера EMR.

Як розширений алгоритм керованого масштабування EMR допоміг рекламному підприємству зменшити витрати:

Ми також розглянули кластер EMR для рекламної компанії, яка використовує Amazon EMR для своєї стратегії аналізу даних і виконує пакетні завдання ETL за допомогою Spark. Вони запускають свої кластери на EMR версії 6.5 і мають увімкнене кероване масштабування EMR. Наступна інформаційна панель Amazon CloudWatch показує, як, починаючи з 15 грудня, вдосконалений алгоритм керованого масштабування надавав (загальна кількість запитуваних одиниць) лише 41 вузол порівняно з попереднім алгоритмом керованого масштабування, який передбачав 86 вузлів для подібного профілю роботи.

Оцінка економії коштів і покращення використання для ваших кластерів EMR:

Економія коштів кластера:

Щоб переглянути приблизну економію коштів для вашого кластера EMR завдяки вдосконаленню EMR Managed Scaling, виконайте наведені нижче дії.

  • Відкрийте Консоль метрик CloudWatch і, під EMR, пошук за вашим ClusterId.
  • Зі списку показників, доступних для EMR, виберіть такі два показники:
    • Ходова здатність – Залежно від типу одиниці, який ви вказали у своїй політиці керованого масштабування, це буде доступно як «TotalUnitsRunning”Або“TotalNodesRunning"Або"TotalVCPURunning"
    • Ємність, яку вимагає кероване масштабування – Залежно від типу одиниці, який ви вказали у своїй політиці керованого масштабування, це буде доступно як «TotalUnitsRequested”Або“TotalNodesRequested"Або"TotalVCPURequested"
  •  Нанесіть обидва показники на інформаційну панель CloudWatch.
  • Виберіть часовий проміжок як 3 місяці між листопадом 2022 року та січнем 2023 року, щоб переглянути вдосконалення вдосконаленого алгоритму керованого масштабування порівняно з попереднім алгоритмом керованого масштабування.

Покращення використання кластера:

Щоб оцінити покращення у використанні вашого кластера EMR за допомогою покращень EMR Managed Scaling, виконайте наведені нижче дії.

  • Відкрийте консоль показників CloudWatch і в розділі EMR, пошук за вашим ClusterId.
  • У списку показників, доступних для EMR, виберіть «YARNMemoryAvailablePercentage” метричний.
  • Щоб отримати пам’ять, яку використовує YARN, додайте математичний вираз, наприклад «Додати математику → Почати з порожнього виразу»
    • Для нового математичного виразу встановіть Label=Використання пряжі і встановити Деталі=100-YARNMemoryAvailablePercentage.
  • Побудуйте показник використання кластера на інформаційній панелі CloudWatch.
  • Виберіть часовий проміжок як 3 місяці між листопадом 2022 року та січнем 2023 року, щоб переглянути вдосконалення вдосконаленого алгоритму керованого масштабування порівняно з попереднім алгоритмом керованого масштабування.

Що далі

Ми продовжуватимемо налаштовувати алгоритм керованого масштабування з кожною новою версією EMR і тим самим покращуватимемо клієнтський досвід масштабування кластерів за допомогою керованого масштабування EMR.

Висновок

У цій публікації ми надали огляд ключового вдосконалення, яке ми запустили в EMR Managed Scaling. Завдяки цим удосконаленням ми помітили, що використання кластера покращилося до 15 відсотків, а вартість кластера зменшилася до 19 відсотків. Починаючи з середини грудня 2022 року, ці вдосконалення було ввімкнено за замовчуванням для кластерів EMR, які використовують Amazon EMR версії 5.34.0 і новішої версії та Amazon EMR версії 6.4.0 і новішої. З огляду на те, що EMR Managed Scaling є повністю керованою функцією, ви отримаєте новий, оптимізований алгоритм EMR Managed Scaling за замовчуванням, і з вашої сторони не потрібно нічого робити.

Щоб дізнатися більше та розпочати роботу з EMR Managed Scaling, відвідайте Сторінка документації EMR Managed Scaling.


Про авторів

Сушант Маджитія є головним менеджером із продуктів EMR в Amazon Web Services.

 Вішал Вяс є старшим інженером програмного забезпечення EMR в Amazon Web Services.

Метью Лієм є старшим менеджером з архітектури рішень в AWS.

Часова мітка:

Більше від Великі дані AWS