В июне 2020 года AWS объявила об общедоступности Управляемое масштабирование Amazon EMR. С помощью EMR Managed Scaling вы указываете минимальное и максимальное ограничения вычислительных ресурсов для своих кластеров, а Amazon EMR автоматически изменяет размер вашего кластера для достижения оптимальной производительности и использования ресурсов. EMR Managed Scaling постоянно отслеживает ключевые показатели, связанные с рабочей нагрузкой, и использует алгоритм, оптимизирующий размер кластера для наилучшего использования ресурсов. Учитывая, что эта функция полностью управляема, улучшения алгоритма реализуются немедленно, без необходимости обновления версии. Amazon EMR может масштабировать кластер во время пиковых нагрузок и изящно уменьшать его в периоды простоя, сокращая ваши расходы и оптимизируя емкость кластера для достижения максимальной производительности.
В течение 2022 года мы внесли несколько улучшений в алгоритм управляемого масштабирования EMR. Благодаря этим улучшениям мы заметили, что для кластеров, поддерживающих EMR Managed Scaling, использование улучшилось на 15 процентов, а общие затраты сократились еще на 19 процентов. С середины декабря 2022 г. улучшения EMR Managed Scaling были включены по умолчанию для кластеров, использующих Amazon EMR версии 5.34.0 и более поздних версий и Amazon EMR версии 6.4.0 и более поздних версий как для новых, так и для существующих кластеров. Кроме того, учитывая, что функция полностью управляема, вы получите новый оптимизированный алгоритм управляемого масштабирования по умолчанию, и с вашей стороны не потребуется никаких действий.
Ниже перечислены некоторые из ключевых улучшений, которые мы сделали для управляемого масштабирования EMR:
- Улучшенное использование кластера благодаря целевому уменьшению масштаба вашего кластера EMR.
- Снижение затрат за счет предотвращения масштабирования экземпляров, в которых хранятся промежуточные данные перемешивания с использованием Осведомленность о данных Spark Shuffle
- Повышение эффективности использования кластера и снижение затрат благодаря постепенному масштабированию вашего кластера EMR.
Истории успеха клиентов
Как усовершенствованный алгоритм управляемого масштабирования EMR помог технологическому предприятию сократить расходы:
Чтобы проиллюстрировать экономию средств на примерах, мы рассмотрели кластеры EMR для технологического предприятия, которое интенсивно использует Amazon EMR для обработки данных о выставлении счетов в режиме реального времени между Kafka и S3 с помощью Spark. Они запускают постоянный кластер EMR с EMR версии 5.35 и включают управляемое масштабирование EMR. На следующей информационной панели Amazon CloudWatch показано, как начиная с 21 декабря расширенный алгоритм управляемого масштабирования (общее количество запрошенных узлов) всего 70 узлов по сравнению с предыдущим алгоритмом управляемого масштабирования, который выделял 179 узлов для аналогичного профиля задания. Чем меньше ресурсов, выделенных для выполнения ваших заданий, тем ниже общая стоимость вашего кластера EMR.
Как усовершенствованный алгоритм EMR Managed Scaling помог рекламному предприятию сократить расходы:
Мы также рассмотрели кластер EMR для рекламного предприятия, которое использует Amazon EMR для своей стратегии анализа данных и выполняет свои пакетные задания ETL с помощью Spark. Они запускают свои кластеры на EMR версии 6.5 и включают EMR Managed Scaling. На следующей информационной панели Amazon CloudWatch показано, как, начиная с 15 декабря, расширенный алгоритм управляемого масштабирования (общее количество запрошенных единиц) всего 41 узел по сравнению с предыдущим алгоритмом управляемого масштабирования, который выделял 86 узлов для аналогичного профиля задания.
Оценка экономии средств и улучшения использования для ваших кластеров EMR:
Экономия затрат кластера:
Чтобы просмотреть примерную экономию средств для вашего кластера EMR с улучшениями EMR Managed Scaling, выполните следующие действия:
- Откройте приложение Консоль метрик CloudWatch и под EMR, поиск по вашему
ClusterId
. - Из списка метрик, доступных для EMR, выберите следующие две метрики:
- Рабочая мощность – В зависимости от типа единицы, указанного в политике управляемого масштабирования, она будет доступна как «Всего единиц в работе" или "Всего узлов работает, либоTotalVCPUrunning .
- Емкость, запрошенная управляемым масштабированием – В зависимости от типа единицы, указанного в политике управляемого масштабирования, она будет доступна как «Всего запрошено единиц" или "Всего узлов запрошено, либоВсего запрошено VCPU .
- Нанесите обе метрики на панель инструментов CloudWatch.
- Выберите временной интервал в 3 месяца между ноябрем 2022 г. и январем 2023 г., чтобы просмотреть улучшения с улучшенным алгоритмом управляемого масштабирования по сравнению с предыдущим алгоритмом управляемого масштабирования.
Улучшения использования кластера:
Чтобы оценить улучшения в использовании вашего кластера EMR с улучшениями EMR Managed Scaling, выполните следующие действия:
- Откройте консоль метрик CloudWatch и в разделе EMR, поиск по вашему
ClusterId
. - Из списка метрик, доступных для EMR, выберите «ПРЯЖАMemoryAvailablePercentage» Метрика.
- Чтобы получить память, используемую YARN, добавьте математическое выражение, например «Добавить математику → Начать с пустого выражения».
- Для нового математического выражения установите Метка=Использование пряжи и установить Подробности = 100-YARNMemoryAvailablePercentage.
- Нанесите метрику использования кластера на панель инструментов CloudWatch.
- Выберите временной интервал в 3 месяца между ноябрем 2022 г. и январем 2023 г., чтобы просмотреть улучшения с улучшенным алгоритмом управляемого масштабирования по сравнению с предыдущим алгоритмом управляемого масштабирования.
Что дальше
Мы будем продолжать настраивать алгоритм управляемого масштабирования с каждым новым выпуском EMR и тем самым повышать качество обслуживания клиентов при масштабировании кластеров с помощью EMR Managed Scaling.
Заключение
В этом посте мы представили обзор ключевых улучшений, которые мы запустили в EMR Managed Scaling. Благодаря этим усовершенствованиям мы заметили, что использование кластера улучшилось на 15 процентов, а стоимость кластера снизилась на 19 процентов. С середины декабря 2022 г. эти усовершенствования были включены по умолчанию для кластеров EMR, использующих Amazon EMR версии 5.34.0 и более поздних, а также Amazon EMR версии 6.4.0 и более поздних. Учитывая, что управляемое масштабирование EMR является полностью управляемой функцией, вы получите новый оптимизированный алгоритм управляемого масштабирования EMR по умолчанию, и с вашей стороны не потребуется никаких действий.
Чтобы узнать больше и начать работу с управляемым масштабированием EMR, посетите Страница документации EMR Managed Scaling.
Об авторах
Сушант Маджития является главным менеджером по продуктам EMR в Amazon Web Services.
Вишал Вьяс является старшим инженером-программистом EMR в Amazon Web Services.
Мэтью Лием является старшим менеджером по архитектуре решений в AWS.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/reduce-amazon-emr-cluster-costs-by-up-to-19-with-new-enhancements-in-amazon-emr-managed-scaling/
- 2020
- 2022
- 2023
- 70
- 84
- a
- Действие
- Реклама
- алгоритм
- Amazon
- Амазонка ЭМИ
- Amazon Web Services
- аналитика
- и
- объявило
- архитектура
- автоматически
- свободных мест
- доступен
- AWS
- основанный
- ниже
- ЛУЧШЕЕ
- между
- биллинг
- Пропускная способность
- Кластер
- сравненный
- полностью
- Вычисление
- Консоли
- постоянно
- продолжать
- Цена
- экономия на издержках
- Расходы
- клиент
- опыт работы с клиентами
- приборная панель
- данным
- Анализ данных
- Декабрь
- По умолчанию
- вниз
- в течение
- включен
- инженер
- расширение
- Предприятие
- оценка
- По оценкам,
- Эфир (ETH)
- Каждая
- Примеры
- Выполняет
- существующий
- опыт
- Особенность
- следовать
- после
- КАДР
- от
- далее
- Общие
- получить
- данный
- постепенный
- сильно
- помог
- Как
- HTML
- HTTPS
- Idle
- немедленно
- улучшать
- улучшенный
- улучшение
- in
- Intermediate
- IT
- январь
- работа
- Джобс
- Кафка
- Основные
- запустили
- УЧИТЬСЯ
- рычаги
- рамки
- Список
- смотрел
- сделанный
- управляемого
- менеджер
- математике
- максимальный
- Память
- метрический
- Метрика
- минимальный
- Мониторы
- месяцев
- БОЛЕЕ
- с разными
- необходимый
- нуждающихся
- Новые
- узлы
- Ноябрь
- номер
- оптимальный
- оптимизированный
- оптимизирует
- оптимизирующий
- обзор
- процент
- производительность
- периодов
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- пожалуйста
- политика
- После
- предупреждение
- предыдущий
- Основной
- процесс
- Продукт
- Менеджер по продукции
- Профиль
- при условии
- реальные
- реального времени
- реализованный
- уменьшить
- Цена снижена
- снижение
- освободить
- просил
- ресурс
- Полезные ресурсы
- Run
- экономия
- Шкала
- увеличить масштаб
- масштабирование
- Поиск
- старший
- Услуги
- набор
- Шоу
- перемешивание
- аналогичный
- Размер
- Software
- Инженер-программист
- Решение
- некоторые
- Искриться
- указанный
- Начало
- и политические лидеры
- Начало
- Шаги
- магазин
- Стратегия
- успех
- такие
- целевое
- Технологии
- Ассоциация
- их
- тем самым
- время
- в
- Всего
- под
- Ед. изм
- единиц
- модернизация
- использовать
- версия
- Вид
- Web
- веб-сервисы
- который
- будете
- без
- ВАШЕ
- зефирнет