Сокращение расходов на кластер Amazon EMR до 19 % благодаря новым улучшениям в Amazon EMR Managed Scaling.

Сокращение расходов на кластер Amazon EMR до 19 % благодаря новым улучшениям в Amazon EMR Managed Scaling.

Исходный узел: 1985302

В июне 2020 года AWS объявила об общедоступности Управляемое масштабирование Amazon EMR. С помощью EMR Managed Scaling вы указываете минимальное и максимальное ограничения вычислительных ресурсов для своих кластеров, а Amazon EMR автоматически изменяет размер вашего кластера для достижения оптимальной производительности и использования ресурсов. EMR Managed Scaling постоянно отслеживает ключевые показатели, связанные с рабочей нагрузкой, и использует алгоритм, оптимизирующий размер кластера для наилучшего использования ресурсов. Учитывая, что эта функция полностью управляема, улучшения алгоритма реализуются немедленно, без необходимости обновления версии. Amazon EMR может масштабировать кластер во время пиковых нагрузок и изящно уменьшать его в периоды простоя, сокращая ваши расходы и оптимизируя емкость кластера для достижения максимальной производительности.

В течение 2022 года мы внесли несколько улучшений в алгоритм управляемого масштабирования EMR. Благодаря этим улучшениям мы заметили, что для кластеров, поддерживающих EMR Managed Scaling, использование улучшилось на 15 процентов, а общие затраты сократились еще на 19 процентов. С середины декабря 2022 г. улучшения EMR Managed Scaling были включены по умолчанию для кластеров, использующих Amazon EMR версии 5.34.0 и более поздних версий и Amazon EMR версии 6.4.0 и более поздних версий как для новых, так и для существующих кластеров. Кроме того, учитывая, что функция полностью управляема, вы получите новый оптимизированный алгоритм управляемого масштабирования по умолчанию, и с вашей стороны не потребуется никаких действий.

Ниже перечислены некоторые из ключевых улучшений, которые мы сделали для управляемого масштабирования EMR:

  • Улучшенное использование кластера благодаря целевому уменьшению масштаба вашего кластера EMR.
  • Снижение затрат за счет предотвращения масштабирования экземпляров, в которых хранятся промежуточные данные перемешивания с использованием Осведомленность о данных Spark Shuffle
  • Повышение эффективности использования кластера и снижение затрат благодаря постепенному масштабированию вашего кластера EMR.

Истории успеха клиентов

Как усовершенствованный алгоритм управляемого масштабирования EMR помог технологическому предприятию сократить расходы:

Чтобы проиллюстрировать экономию средств на примерах, мы рассмотрели кластеры EMR для технологического предприятия, которое интенсивно использует Amazon EMR для обработки данных о выставлении счетов в режиме реального времени между Kafka и S3 с помощью Spark. Они запускают постоянный кластер EMR с EMR версии 5.35 и включают управляемое масштабирование EMR. На следующей информационной панели Amazon CloudWatch показано, как начиная с 21 декабря расширенный алгоритм управляемого масштабирования (общее количество запрошенных узлов) всего 70 узлов по сравнению с предыдущим алгоритмом управляемого масштабирования, который выделял 179 узлов для аналогичного профиля задания. Чем меньше ресурсов, выделенных для выполнения ваших заданий, тем ниже общая стоимость вашего кластера EMR.

Как усовершенствованный алгоритм EMR Managed Scaling помог рекламному предприятию сократить расходы:

Мы также рассмотрели кластер EMR для рекламного предприятия, которое использует Amazon EMR для своей стратегии анализа данных и выполняет свои пакетные задания ETL с помощью Spark. Они запускают свои кластеры на EMR версии 6.5 и включают EMR Managed Scaling. На следующей информационной панели Amazon CloudWatch показано, как, начиная с 15 декабря, расширенный алгоритм управляемого масштабирования (общее количество запрошенных единиц) всего 41 узел по сравнению с предыдущим алгоритмом управляемого масштабирования, который выделял 86 узлов для аналогичного профиля задания.

Оценка экономии средств и улучшения использования для ваших кластеров EMR:

Экономия затрат кластера:

Чтобы просмотреть примерную экономию средств для вашего кластера EMR с улучшениями EMR Managed Scaling, выполните следующие действия:

  • Откройте приложение Консоль метрик CloudWatch и под EMR, поиск по вашему ClusterId.
  • Из списка метрик, доступных для EMR, выберите следующие две метрики:
    • Рабочая мощность – В зависимости от типа единицы, указанного в политике управляемого масштабирования, она будет доступна как «Всего единиц в работе" или "Всего узлов работает, либоTotalVCPUrunning
    • Емкость, запрошенная управляемым масштабированием – В зависимости от типа единицы, указанного в политике управляемого масштабирования, она будет доступна как «Всего запрошено единиц" или "Всего узлов запрошено, либоВсего запрошено VCPU
  •  Нанесите обе метрики на панель инструментов CloudWatch.
  • Выберите временной интервал в 3 месяца между ноябрем 2022 г. и январем 2023 г., чтобы просмотреть улучшения с улучшенным алгоритмом управляемого масштабирования по сравнению с предыдущим алгоритмом управляемого масштабирования.

Улучшения использования кластера:

Чтобы оценить улучшения в использовании вашего кластера EMR с улучшениями EMR Managed Scaling, выполните следующие действия:

  • Откройте консоль метрик CloudWatch и в разделе EMR, поиск по вашему ClusterId.
  • Из списка метрик, доступных для EMR, выберите «ПРЯЖАMemoryAvailablePercentage» Метрика.
  • Чтобы получить память, используемую YARN, добавьте математическое выражение, например «Добавить математику → Начать с пустого выражения».
    • Для нового математического выражения установите Метка=Использование пряжи и установить Подробности = 100-YARNMemoryAvailablePercentage.
  • Нанесите метрику использования кластера на панель инструментов CloudWatch.
  • Выберите временной интервал в 3 месяца между ноябрем 2022 г. и январем 2023 г., чтобы просмотреть улучшения с улучшенным алгоритмом управляемого масштабирования по сравнению с предыдущим алгоритмом управляемого масштабирования.

Что дальше

Мы будем продолжать настраивать алгоритм управляемого масштабирования с каждым новым выпуском EMR и тем самым повышать качество обслуживания клиентов при масштабировании кластеров с помощью EMR Managed Scaling.

Заключение

В этом посте мы представили обзор ключевых улучшений, которые мы запустили в EMR Managed Scaling. Благодаря этим усовершенствованиям мы заметили, что использование кластера улучшилось на 15 процентов, а стоимость кластера снизилась на 19 процентов. С середины декабря 2022 г. эти усовершенствования были включены по умолчанию для кластеров EMR, использующих Amazon EMR версии 5.34.0 и более поздних, а также Amazon EMR версии 6.4.0 и более поздних. Учитывая, что управляемое масштабирование EMR является полностью управляемой функцией, вы получите новый оптимизированный алгоритм управляемого масштабирования EMR по умолчанию, и с вашей стороны не потребуется никаких действий.

Чтобы узнать больше и начать работу с управляемым масштабированием EMR, посетите Страница документации EMR Managed Scaling.


Об авторах

Сушант Маджития является главным менеджером по продуктам EMR в Amazon Web Services.

 Вишал Вьяс является старшим инженером-программистом EMR в Amazon Web Services.

Мэтью Лием является старшим менеджером по архитектуре решений в AWS.

Отметка времени:

Больше от AWS Большие данные