Amazon EMR to usługa Big Data oferowana przez AWS do uruchamiania Apache Spark i innych aplikacji open source w AWS w celu budowania skalowalnych potoków danych w opłacalny sposób. Monitorowanie dzienników generowanych z zadań wdrożonych w klastrach EMR jest niezbędne do wykrywania krytycznych problemów w czasie rzeczywistym i szybkiego identyfikowania głównych przyczyn.
Wrzucam te logi Amazon Cloud Watch umożliwia scentralizowanie i wykorzystanie praktycznych informacji z dzienników w celu rozwiązania problemów operacyjnych bez konieczności udostępniania serwerów lub zarządzania oprogramowaniem. Możesz natychmiast rozpocząć pisanie zapytań z agregacjami, filtrami i wyrażeniami regularnymi. Ponadto możesz wizualizować dane szeregów czasowych, drążyć poszczególne zdarzenia dziennika i eksportować wyniki zapytań do pulpitów nawigacyjnych CloudWatch.
Aby pozyskiwać dzienniki, które są utrwalane na Elastyczna chmura obliczeniowa Amazon (Amazon EC2) instancji klastra EMR do CloudWatch, możesz użyć Agent CloudWatch. Zapewnia to prosty sposób przekazywania dzienników z instancji EC2 do CloudWatch.
Agent CloudWatch to pakiet oprogramowania, który autonomicznie i nieprzerwanie działa na Twoich serwerach. Możesz zainstalować i skonfigurować agenta CloudWatch do zbierania dzienników systemu i aplikacji z instancji EC2, hostów lokalnych i aplikacji kontenerowych. CloudWatch przetwarza i przechowuje dzienniki zebrane przez agenta CloudWatch, co dodatkowo pomaga w monitorowaniu wydajności i kondycji Twojej infrastruktury i aplikacji.
W tym poście tworzymy klaster EMR i centralizujemy dzienniki kroków EMR zadań w CloudWatch. Ułatwi to zarządzanie klastrem EMR, rozwiązywanie problemów i monitorowanie wydajności. To rozwiązanie jest szczególnie przydatne, jeśli chcesz używać CloudWatch do zbierania i wizualizacji dzienników, metryk i danych zdarzeń w czasie rzeczywistym, usprawniając konserwację infrastruktury i aplikacji.
Przegląd rozwiązania
Rozwiązanie przedstawione w tym poście opiera się na konkretnej konfiguracji, w której poziom współbieżności kroku EMR jest ustawiony na 1. Oznacza to, że w klastrze uruchamiany jest tylko jeden krok na raz. Należy pamiętać, że jeśli poziom współbieżności kroku EMR jest ustawiony na wartość większą niż 1, rozwiązanie może nie działać zgodnie z oczekiwaniami. Zdecydowanie zalecamy weryfikację Współbieżność kroku EMR konfiguracji przed wdrożeniem rozwiązania przedstawionego w tym poście.
Poniższy schemat ilustruje architekturę rozwiązania.
Przepływ pracy obejmuje następujące kroki:
- Użytkownicy uruchamiają zadanie Apache Spark EMR, tworząc krok w klastrze EMR. Za pomocą Apache Spark obciążenie jest rozdzielane na różne węzły klastra EMR.
- W każdym węźle (instancji EC2) klastra agent CloudWatch obserwuje różne katalogi logów, przechwytując nowe wpisy w plikach logów i przesyłając je do CloudWatch.
- Użytkownicy mogą przeglądać dzienniki kroków uzyskując dostęp do różnych grup dzienników z konsoli CloudWatch. Dzienniki kroków zapisane przez Amazon EMR są następujące:
- kontroler — Informacje o przetwarzaniu kroku. Jeśli Twój krok nie powiedzie się podczas ładowania, możesz znaleźć ślad stosu w tym dzienniku.
- stderr — Standardowy kanał błędów platformy Spark podczas przetwarzania kroku.
- stdout — Standardowy kanał wyjściowy Sparka podczas przetwarzania kroku.
Zapewniamy Tworzenie chmury AWS szablon w tym poście jako ogólny przewodnik. Szablon pokazuje, jak skonfigurować agenta CloudWatch w usłudze Amazon EMR w celu wypychania dzienników platformy Spark do usługi CloudWatch. Możesz przejrzeć i dostosować go w razie potrzeby, aby uwzględnić konfiguracje bezpieczeństwa Amazon EMR. Jako najlepszą praktykę zalecamy uwzględnienie konfiguracji zabezpieczeń Amazon EMR w szablonie do szyfruj dane w tranzycie.
Należy również pamiętać, że niektóre zasoby wdrażane przez ten stos generują koszty, gdy są nadal używane.
W kolejnych sekcjach przechodzimy przez następujące kroki:
- Utwórz i prześlij skrypt ładowania początkowego do pliku Usługa Amazon Simple Storage Łyżka (Amazon S3).
- Użyj szablonu CloudFormation, aby utworzyć następujące zasoby:
- Monitoruj dzienniki platformy Spark w konsoli CloudWatch.
Wymagania wstępne
Ten post zakłada, że masz następujące elementy:
Utwórz i prześlij skrypt ładowania początkowego do zasobnika S3
Aby uzyskać więcej informacji, zobacz Przesyłanie obiektów i Instalowanie i uruchamianie agenta CloudWatch na Twoich serwerach.
Aby utworzyć i przesłać skrypt ładowania początkowego, wykonaj następujące czynności:
- Utwórz lokalny plik o nazwie
bootstrap_cloudwatch_agent.sh
o następującej treści: - Na konsoli Amazon S3 wybierz swoje wiadro S3.
- Na Obiekty kartę, wybierz Prześlij.
- Dodaj Dodaj pliki, a następnie wybierz skrypt ładowania początkowego.
- Dodaj Prześlij, a następnie wybierz nazwę pliku:
bootstrap_cloudwatch_agent.sh
. - Dodaj Skopiuj identyfikator URI S3. Użyjemy tej wartości w późniejszym kroku.
Aprowizuj zasoby za pomocą szablonu CloudFormation
Dodaj Uruchom stos aby uruchomić stos CloudFormation na swoim koncie i wdrożyć szablon:
Ten szablon tworzy rolę IAM, profil instancji IAM, parametr Systems Manager i klaster EMR. Klaster uruchamia Przykładowa aplikacja do szacowania Spark PI. Opłata zostanie naliczona za użyte zasoby AWS, jeśli utworzysz stos z tego szablonu.
Kreator CloudFormation poprosi Cię o zmodyfikowanie lub podanie następujących parametrów:
- Typ wystąpienia - rodzaj instancji dla wszystkich grup instancji. Domyślnie jest to m4.xlarge.
- InstanceCountCore – Liczba instancji w podstawowej grupie instancji. Wartość domyślna to 2.
- Etykieta wydania EMRR - Etykieta wydania Amazon EMR chcesz użyć. Domyślnie jest to emr-6.9.0.
- Ścieżka skryptu Bootstrap – Ścieżka S3 skopiowanego wcześniej skryptu startowego instalacji agenta CloudWatch.
- Subnet – Podsieć EC2, w której uruchamiany jest klaster. Musisz podać ten parametr.
- EC2KeyPairNazwa – Opcjonalna para kluczy EC2 do łączenia się z węzłami klastra jako alternatywa dla Menedżera sesji.
Monitoruj strumienie dziennika
Po pomyślnym wdrożeniu stosu CloudFormation w konsoli CloudWatch wybierz Grupy dziennika w okienku nawigacji. Następnie przefiltruj grupy dzienników według prefiksu /aws/emr/master
.
Identyfikator w grupie dziennika odpowiada identyfikatorowi instancji EC2 węzła podstawowego EMR. Jeśli masz wiele klastrów EMR, możesz użyć tego identyfikatora do zidentyfikowania określonego klastra EMR na podstawie identyfikatora węzła podstawowego.
W grupie logów znajdziesz trzy różne strumienie logów.
Strumienie dziennika zawierają następujące informacje:
- standardowe wyjście krokowe – Standardowy kanał wyjściowy Sparka podczas przetwarzania kroku.
- krok-stderr – Standardowy kanał błędów platformy Spark podczas przetwarzania kroku.
- regulator krokowy – Informacje o przetwarzaniu kroku. Jeśli Twój krok nie powiedzie się podczas ładowania, możesz znaleźć ślad stosu w tym dzienniku.
Sprzątać
Aby uniknąć przyszłych opłat na koncie, usuń zasoby utworzone w tym instruktażu. Klaster EMR będzie generować opłaty tak długo, jak klaster będzie aktywny, więc zatrzymaj go, gdy skończysz.
- W konsoli CloudFormation w okienku nawigacji wybierz Półki na książki.
- Wybierz stos, który uruchomiłeś (
EMR-CloudWatch-Demo
), następnie wybierz Usuń. - Opróżnij wiadro S3 stworzyłeś.
- Usuń wiadro S3 stworzyłeś.
Wnioski
Teraz, po wykonaniu kroków opisanych w tym instruktażu, agent CloudWatch działa na hostach klastra i jest skonfigurowany do wypychania dzienników kroków EMR do CloudWatch. Dzięki tej funkcji możesz skutecznie monitorować kondycję i wydajność swoich zadań Spark działających w Amazon EMR, wykrywając krytyczne problemy w czasie rzeczywistym i szybko identyfikując główne przyczyny.
Możesz spakować i wdrożyć to rozwiązanie za pomocą szablonu CloudFormation, takiego jak ten przykładowy szablon, który tworzy rolę profilu wystąpienia IAM, parametr Systems Manager i klaster EMR.
Aby pójść dalej, rozważ użycie tych dzienników w alarmach CloudWatch dla alertów dotyczących a loguj filtr grupowo-metryczny. Możesz zebrać je z innymi alarmami w alarm złożony lub skonfigurować działania alarmowe, takie jak wysyłanie Usługa prostego powiadomienia Amazon (Amazon SNS) powiadomienia do wyzwalania procesów sterowanych zdarzeniami, takich jak AWS Lambda funkcje.
O autorze
Ennio Pastora jest starszym architektem danych w zespole AWS Data Lab. Jest entuzjastą wszystkiego, co związane z nowymi technologiami, które mają pozytywny wpływ na biznes i byt. Ennio ma ponad 10-letnie doświadczenie w analityce danych. Pomaga firmom definiować i wdrażać platformy danych w różnych branżach, takich jak telekomunikacja, bankowość, gry, handel detaliczny i ubezpieczenia.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/big-data/push-amazon-emr-step-logs-from-amazon-ec2-instances-to-amazon-cloudwatch-logs/
- :Jest
- 1
- 10
- 100
- 9
- a
- O nas
- Dostęp
- Konto
- w poprzek
- działania
- aktywny
- dodatek
- adres
- Agent
- alarm
- Alerty
- Wszystkie kategorie
- alternatywny
- Amazonka
- Amazon EC2
- Amazon EMR
- analityka
- i
- Apache
- Apache Spark
- Zastosowanie
- aplikacje
- architektura
- SĄ
- AS
- At
- autonomicznie
- AWS
- Bankowość
- na podstawie
- BE
- zanim
- rozpocząć
- BEST
- Duży
- Big Data
- Bootstrap
- budować
- biznes
- by
- CAN
- Przechwytywanie
- Przyczyny
- Kanał
- Opłaty
- Dodaj
- Grupa
- zbierać
- Firmy
- kompletny
- Zakończony
- obliczać
- systemu
- Podłączanie
- Rozważać
- Konsola
- zawartość
- bez przerwy
- rdzeń
- odpowiada
- opłacalne
- Koszty:
- mógłby
- Stwórz
- stworzony
- tworzy
- Tworzenie
- krytyczny
- dostosować
- dane
- Analityka danych
- Domyślnie
- demonstruje
- rozwijać
- wdrażane
- wdraża się
- różne
- katalogi
- dystrybuowane
- na dół
- napęd
- każdy
- Wcześniej
- łatwiej
- przegapić
- faktycznie
- Umożliwia
- entuzjasta
- błąd
- niezbędny
- Eter (ETH)
- wydarzenie
- wydarzenia
- wszystko
- przykład
- spodziewany
- doświadczenie
- eksport
- wyrażeń
- nie
- Cecha
- filet
- Akta
- filtrować
- filtry
- Znajdź
- następujący
- następujący sposób
- W razie zamówieenia projektu
- od
- Funkcje
- dalej
- przyszłość
- gier
- Ogólne
- wygenerowane
- Go
- większy
- Zarządzanie
- Grupy
- poprowadzi
- Have
- Zdrowie
- pomoc
- pomocny
- pomaga
- wysoko
- gospodarze
- W jaki sposób
- How To
- HTML
- http
- HTTPS
- IAM
- ID
- zidentyfikować
- identyfikacja
- Rezultat
- wdrożenia
- wykonawczych
- ważny
- in
- zawierać
- obejmuje
- Włącznie z
- indywidualny
- przemysłowa
- Informacja
- Infrastruktura
- zainstalować
- Instalacja
- przykład
- ubezpieczenie
- Inteligencja
- problemy
- IT
- Praca
- Oferty pracy
- jpg
- json
- laboratorium
- uruchomić
- uruchomiona
- uruchamia
- poziom
- lubić
- załadunek
- miejscowy
- długo
- konserwacja
- robić
- zarządzanie
- kierownik
- sposób
- znaczy
- Metryka
- modyfikować
- monitor
- monitorowanie
- jeszcze
- wielokrotność
- Nazwa
- O imieniu
- Nawigacja
- potrzebne
- potrzeba
- Nowości
- Nowe technologie
- Następny
- węzeł
- węzły
- powiadomienie
- Powiadomienia
- numer
- of
- oferowany
- on
- ONE
- open source
- operacyjny
- Inne
- wydajność
- pakiet
- chleb
- parametr
- parametry
- szczególny
- szczególnie
- ścieżka
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- Platformy
- plato
- Analiza danych Platona
- PlatoDane
- pozytywny
- Post
- praktyka
- przedstawione
- pierwotny
- procesów
- przetwarzanie
- Profil
- zapewniać
- zapewnia
- zaopatrzenie
- Naciskać
- Popychanie
- szybko
- real
- w czasie rzeczywistym
- polecić
- regularny
- związane z
- zwolnić
- pozostawać
- Zasoby
- Efekt
- detaliczny
- przeglądu
- Rola
- korzeń
- run
- bieganie
- skalowalny
- działy
- bezpieczeństwo
- wysyłanie
- senior
- Serie
- usługa
- Sesja
- zestaw
- powinien
- Prosty
- So
- Tworzenie
- rozwiązanie
- kilka
- Iskra
- specyficzny
- stos
- standard
- początek
- Startowy
- rozpocznie
- Ewolucja krok po kroku
- Cel
- Stop
- przechowywanie
- sklep
- usprawnienie
- Strumienie
- podsieci
- Z powodzeniem
- taki
- Sudo
- system
- systemy
- Brać
- zespół
- Technologies
- telekomunikacja
- szablon
- że
- Połączenia
- Im
- Te
- trzy
- Przez
- czas
- Szereg czasowy
- do
- wyśledzić
- wyzwalać
- posługiwać się
- wartość
- weryfikacja
- Zobacz i wysłuchaj
- solucja
- zegarki
- Droga..
- który
- Podczas
- będzie
- w
- bez
- Praca
- workflow
- pisanie
- napisany
- jamla
- lat
- Twój
- zefirnet