Zmniejsz koszty klastra Amazon EMR nawet o 19% dzięki nowym ulepszeniom w zarządzanym skalowaniu Amazon EMR

Zmniejsz koszty klastra Amazon EMR nawet o 19% dzięki nowym ulepszeniom w zarządzanym skalowaniu Amazon EMR

Węzeł źródłowy: 1985302

W czerwcu 2020 roku AWS ogłosił ogólną dostępność Zarządzane skalowanie Amazon EMR. Dzięki EMR Managed Scaling określasz minimalne i maksymalne limity mocy obliczeniowej dla swoich klastrów, a Amazon EMR automatycznie zmienia rozmiar klastra w celu uzyskania optymalnej wydajności i wykorzystania zasobów. EMR Managed Scaling stale monitoruje kluczowe wskaźniki związane z obciążeniem pracą i wykorzystuje algorytm, który optymalizuje rozmiar klastra w celu najlepszego wykorzystania zasobów. Biorąc pod uwagę, że funkcja jest w pełni zarządzana, ulepszenia algorytmu są natychmiast realizowane bez konieczności aktualizacji wersji. Amazon EMR może skalować klaster w górę podczas szczytów i z wdziękiem zmniejszać go w okresach bezczynności, zmniejszając koszty i optymalizując pojemność klastra w celu uzyskania najlepszej wydajności.

W 2022 roku wprowadziliśmy wiele ulepszeń algorytmu EMR Managed Scaling. Dzięki tym ulepszeniom zaobserwowaliśmy, że w przypadku klastrów z włączoną funkcją EMR Managed Scaling wykorzystanie poprawiło się nawet o 15 procent, a całkowite koszty zostały jeszcze bardziej obniżone nawet o 19 procent. Od połowy grudnia 2022 r. ulepszenia EMR Managed Scaling były domyślnie włączone dla klastrów korzystających z Amazon EMR w wersji 5.34.0 i nowszych oraz Amazon EMR w wersji 6.4.0 i nowszych zarówno dla nowych, jak i istniejących klastrów. Ponadto, biorąc pod uwagę, że funkcja jest w pełni zarządzana, domyślnie otrzymasz nowy, zoptymalizowany algorytm Managed Scaling i nie musisz podejmować żadnych działań.

Poniżej wymieniono niektóre z kluczowych ulepszeń, które włączyliśmy w skalowaniu zarządzanym przez EMR:

  • Lepsze wykorzystanie klastra dzięki ukierunkowanemu zmniejszaniu klastra EMR
  • Zmniejszono koszty, zapobiegając skalowaniu w dół instancji, które przechowują pośrednie dane losowe Świadomość danych Spark Shuffle
  • Lepsze wykorzystanie klastra i obniżenie kosztów dzięki stopniowemu skalowaniu klastra EMR

Historie sukcesu klientów

Jak udoskonalony algorytm EMR Managed Scaling pomógł przedsiębiorstwu technologicznemu obniżyć koszty:

Aby zilustrować oszczędności kosztami na przykładach, przyjrzeliśmy się klastrom EMR dla przedsiębiorstwa technologicznego, które intensywnie wykorzystuje Amazon EMR do przetwarzania danych rozliczeniowych w czasie rzeczywistym między Kafką a S3 przy użyciu platformy Spark. Działają w trwałym klastrze EMR z EMR w wersji 5.35 i mają włączone skalowanie zarządzane przez EMR. Poniższy pulpit nawigacyjny Amazon CloudWatch pokazuje, w jaki sposób od 21 grudnia udostępniono ulepszony algorytm skalowania zarządzanego (żądana liczba węzłów) tylko 70 węzłów w porównaniu z poprzednim algorytmem Managed Scaling, który udostępniał 179 węzłów dla podobnego profilu zadania. Im mniejsza liczba zasobów udostępnionych do wykonywania zadań, tym niższy całkowity koszt klastra EMR.

Jak udoskonalony algorytm EMR Managed Scaling pomógł przedsiębiorstwu reklamowemu obniżyć koszty:

Przyjrzeliśmy się również klastrowi EMR dla przedsiębiorstwa reklamowego, które wykorzystuje Amazon EMR do swojej strategii analizy danych i wykonuje wsadowe zadania ETL przy użyciu platformy Spark. Uruchamiają swoje klastry w systemie EMR w wersji 6.5 i mają włączone skalowanie zarządzane przez EMR. Poniższy pulpit nawigacyjny Amazon CloudWatch pokazuje, jak począwszy od 15 grudnia udoskonalony algorytm skalowania zarządzanego został zainicjowany (żądana liczba jednostek) tylko 41 węzłów w porównaniu z poprzednim algorytmem Managed Scaling, który udostępniał 86 węzłów dla podobnego profilu zadania.

Szacowanie oszczędności kosztów i poprawy wykorzystania klastrów EMR:

Oszczędności kosztów klastra:

Aby wyświetlić szacunkowe oszczędności kosztów dla klastra EMR dzięki ulepszeniom EMR Managed Scaling, wykonaj poniższe czynności:

  • Otwórz Konsola metryk CloudWatch i pod EMR, wyszukaj według swojego ClusterId.
  • Z listy metryk dostępnych dla EMR wybierz te dwie metryki:
    • Wydajność biegowa – W zależności od typu jednostki określonej w zasadach zarządzanego skalowania, będzie ona dostępna jako „Łączna liczba uruchomionych jednostek”Lub„Wszystkie uruchomione węzły"Lub"TotalVCPURuruchamia"
    • Pojemność wymagana przez skalowanie zarządzane – W zależności od typu jednostki określonej w zasadach zarządzanego skalowania, będzie ona dostępna jako „Całkowita liczba żądanych jednostek”Lub„Liczba żądanych węzłów"Lub"Suma żądań VPU"
  •  Nanieś obie metryki na pulpit nawigacyjny CloudWatch.
  • Wybierz przedział czasu jako 3 miesiące między listopadem 2022 r. a styczniem 2023 r., aby wyświetlić ulepszenia wprowadzone przez ulepszony algorytm skalowania zarządzanego w porównaniu z poprzednim algorytmem skalowania zarządzanego.

Ulepszenia wykorzystania klastra:

Aby oszacować poprawę wykorzystania klastra EMR dzięki ulepszeniom EMR Managed Scaling, wykonaj poniższe czynności:

  • Otwórz konsolę metryk CloudWatch i poniżej EMR, wyszukaj według swojego ClusterId.
  • Z listy danych dostępnych dla EMR wybierz „PRZĘDZAPamięćDostępnyProcent” metryczny.
  • Aby wyprowadzić pamięć używaną przez YARN, dodaj wyrażenie matematyczne, takie jak „Dodaj matematykę → Zacznij od pustego wyrażenia”
    • Dla nowego wyrażenia matematycznego ustaw Etykieta = Wykorzystanie przędzy i nastaw Szczegóły = 100-YARNPamięćDostępny procent.
  • Narysuj metrykę wykorzystania klastra na pulpicie nawigacyjnym CloudWatch.
  • Wybierz przedział czasu jako 3 miesiące między listopadem 2022 r. a styczniem 2023 r., aby wyświetlić ulepszenia wprowadzone przez ulepszony algorytm skalowania zarządzanego w porównaniu z poprzednim algorytmem skalowania zarządzanego.

Co dalej

Będziemy nadal dostosowywać algorytm Managed Scaling z każdą nową wersją EMR, poprawiając w ten sposób doświadczenie klienta podczas skalowania klastrów za pomocą EMR Managed Scaling.

Wnioski

W tym poście przedstawiliśmy przegląd kluczowych ulepszeń, które wprowadziliśmy w EMR Managed Scaling. Dzięki tym ulepszeniom zaobserwowaliśmy, że wykorzystanie klastra poprawiło się nawet o 15 procent, a koszt klastra spadł nawet o 19 procent. Od połowy grudnia 2022 r. te ulepszenia były domyślnie włączone dla klastrów EMR korzystających z Amazon EMR w wersji 5.34.0 i nowszych oraz Amazon EMR w wersji 6.4.0 i nowszych. Biorąc pod uwagę, że EMR Managed Scaling jest w pełni zarządzaną funkcją, domyślnie otrzymasz nowy, zoptymalizowany algorytm EMR Managed Scaling i nie musisz podejmować żadnych działań.

Aby dowiedzieć się więcej i rozpocząć korzystanie z EMR Managed Scaling, odwiedź stronę Strona dokumentacji skalowania zarządzanego przez EMR.


O autorach

Sushant Majithia jest głównym menedżerem produktu w dziale EMR w Amazon Web Services.

 Vishal Vyas jest starszym inżynierem oprogramowania dla EMR w Amazon Web Services.

Mateusz Liem jest Senior Solution Architecture Manager w AWS.

Znak czasu:

Więcej z Duże zbiory danych AWS!