אמזון EMR הוא שירות ביג דאטה המוצע על ידי AWS להפעלת Apache Spark ויישומי קוד פתוח אחרים ב-AWS לבניית צינורות נתונים ניתנים להרחבה באופן חסכוני. ניטור היומנים שנוצרו מהעבודות הפרוסות באשכולות EMR חיוני כדי לסייע באיתור בעיות קריטיות בזמן אמת ובזיהוי גורמי שורש במהירות.
דוחף את היומנים האלה לתוך אמזון CloudWatch מאפשר לך לרכז ולהניע מודיעין בר-פעולה מהיומנים שלך כדי לטפל בבעיות תפעוליות ללא צורך באספקת שרתים או ניהול תוכנה. אתה יכול להתחיל לכתוב שאילתות באופן מיידי עם צבירות, מסננים וביטויים רגולריים. בנוסף, אתה יכול לדמיין נתוני סדרות זמן, להתעמק באירועי יומן בודדים, ולייצא תוצאות שאילתות ללוחות המחוונים של CloudWatch.
כדי לבלוע יומנים שנמשכים על ענן מחשוב אלסטי של אמזון (Amazon EC2) מופעים של אשכול EMR לתוך CloudWatch, אתה יכול להשתמש ב סוכן CloudWatch. זה מספק דרך פשוטה לדחוף יומנים ממופע EC2 ל-CloudWatch.
סוכן CloudWatch הוא חבילת תוכנה הפועלת באופן אוטונומי ורציף על השרתים שלך. אתה יכול להתקין ולהגדיר את סוכן CloudWatch לאסוף יומני מערכת ויישומים ממופעי EC2, מארחים מקומיים ויישומים מכולים. CloudWatch מעבד ומאחסן את היומנים שנאספים על ידי סוכן CloudWatch, מה שעוזר עוד יותר בביצועים ובניטור הבריאות של התשתית והיישומים שלך.
בפוסט זה, אנו יוצרים אשכול EMR ומרכזים את יומני השלבים של EMR של המשרות ב-CloudWatch. זה יקל עליך לנהל את אשכול EMR שלך, לפתור בעיות ולנטר את הביצועים. פתרון זה מועיל במיוחד אם אתה רוצה להשתמש ב-CloudWatch כדי לאסוף ולהמחיש יומנים, מדדים ונתוני אירועים בזמן אמת, תוך ייעול התשתית ותחזוקת האפליקציות שלך.
סקירה כללית של הפיתרון
הפתרון המוצג בפוסט זה מבוסס על תצורה ספציפית שבה רמת במקביליות שלב EMR מוגדרת ל-1. המשמעות היא שרק שלב אחד מופעל בכל פעם באשכול. חשוב לציין שאם רמת המקבילות של צעד EMR מוגדרת לערך גדול מ-1, ייתכן שהפתרון לא יפעל כמצופה. אנו ממליצים בחום לאמת את מקיפות צעדי EMR תצורה לפני יישום הפתרון המוצג בפוסט זה.
התרשים הבא ממחיש את ארכיטקטורת הפתרונות.
זרימת העבודה כוללת את השלבים הבאים:
- משתמשים מתחילים עבודת Apache Spark EMR, ויוצרים שלב באשכול EMR. באמצעות Apache Spark, עומס העבודה מופץ על פני הצמתים השונים של אשכול EMR.
- בכל צומת (מופע EC2) של האשכול, סוכן CloudWatch צופה בספריות יומנים שונות, לוכד ערכים חדשים בקובצי היומן ודוחף אותם ל-CloudWatch.
- משתמשים יכולים להציג את יומני השלבים הניגשים לקבוצות היומן השונות ממסוף ה-CloudWatch. יומני השלבים שנכתבו על ידי Amazon EMR הם כדלקמן:
- בקר - מידע על עיבוד השלב. אם הצעד שלך נכשל בזמן הטעינה, תוכל למצוא את מעקב הערימה ביומן זה.
- סטדרר - ערוץ השגיאה הסטנדרטי של Spark בזמן שהוא מעבד את השלב.
- stdout - ערוץ הפלט הסטנדרטי של Spark בזמן שהוא מעבד את השלב.
אנו מספקים AWS CloudFormation תבנית בפוסט זה כמדריך כללי. התבנית מדגימה כיצד להגדיר סוכן CloudWatch ב- Amazon EMR כדי לדחוף יומני Spark ל-CloudWatch. אתה יכול לסקור ולהתאים אותו לפי הצורך כדי לכלול את תצורות האבטחה של Amazon EMR שלך. כתרגול מומלץ, אנו ממליצים לכלול את תצורות האבטחה של Amazon EMR שלך בתבנית ל להצפין נתונים במעבר.
עליך גם להיות מודע לכך שחלק מהמשאבים שנפרסים על ידי מחסנית זו כרוכים בעלויות כאשר הם נשארים בשימוש.
בחלקים הבאים נעבור על השלבים הבאים:
- צור והעלה את סקריפט האתחול ל- an שירות אחסון פשוט של אמזון (אמזון S3) דלי.
- השתמש בתבנית CloudFormation כדי ליצור את המשאבים הבאים:
- עקוב אחר יומני Spark בקונסולת CloudWatch.
תנאים מוקדמים
הפוסט הזה מניח שיש לך את הדברים הבאים:
צור והעלה את סקריפט האתחול לדלי S3
לקבלת מידע נוסף, ראה העלאת חפצים ו התקנה והרצה של סוכן CloudWatch בשרתים שלך.
כדי ליצור ולהעלות את סקריפט האתחול, בצע את השלבים הבאים:
- צור קובץ מקומי בשם
bootstrap_cloudwatch_agent.sh
עם התוכן הבא: - בקונסולת Amazon S3, בחר את דלי ה-S3 שלך.
- על אובייקטים בחר, בחר העלה.
- לבחור הוסף קבצים, ולאחר מכן בחר את סקריפט האתחול.
- לבחור העלה, ולאחר מכן בחר את שם הקובץ:
bootstrap_cloudwatch_agent.sh
. - לבחור העתק S3 URI. אנו משתמשים בערך זה בשלב מאוחר יותר.
אספקת משאבים עם תבנית CloudFormation
לבחור השקת ערימה כדי להפעיל ערימת CloudFormation בחשבון שלך ולפרוס את התבנית:
תבנית זו יוצרת תפקיד IAM, פרופיל מופע IAM, פרמטר מנהל מערכות ואשכול EMR. האשכול מתחיל את יישום דוגמה להערכת Spark PI. תחויב עבור משאבי ה-AWS המשמשים אם תיצור מחסנית מתבנית זו.
אשף CloudFormation יבקש ממך לשנות או לספק את הפרמטרים הבאים:
- InstanceType - סוג מופע עבור כל קבוצות המופעים. ברירת המחדל היא m4.xlarge.
- InstanceCountCore – מספר המופעים בקבוצת מופעי הליבה. ברירת המחדל היא 2.
- EMRRReleaseLabel - תווית שחרור אמזון EMR אתה רוצה להשתמש. ברירת המחדל היא emr-6.9.0.
- BootstrapScriptPath - נתיב S3 של סקריפט האתחול של התקנת סוכן CloudWatch שהעתקת קודם לכן.
- תת רשת - רשת המשנה EC2 שבה האשכול מופעל. עליך לספק פרמטר זה.
- EC2KeyPairName – צמד מפתחות EC2 אופציונלי לחיבור לצמתי אשכולות, כחלופה ל-Session Manager.
עקוב אחר זרמי היומן
לאחר פריסת מחסנית CloudFormation בהצלחה, במסוף CloudWatch, בחר קבוצות יומנים בחלונית הניווט. לאחר מכן סנן את קבוצות היומן לפי הקידומת /aws/emr/master
.
המזהה בקבוצת היומן מתאים למזהה המופע EC2 של הצומת הראשי EMR. אם יש לך מספר אשכולות EMR, תוכל להשתמש במזהה זה כדי לזהות אשכול EMR מסוים, בהתבסס על מזהה הצומת הראשי.
בקבוצת היומן, תמצאו את שלושת זרמי היומן השונים.
זרמי היומן מכילים את המידע הבא:
- step-stdout - ערוץ הפלט הסטנדרטי של Spark בזמן שהוא מעבד את השלב.
- step-stderr - ערוץ השגיאה הסטנדרטי של Spark בזמן שהוא מעבד את השלב.
- בקר צעדים – מידע על עיבוד השלב. אם הצעד שלך נכשל בזמן הטעינה, תוכל למצוא את מעקב הערימה ביומן זה.
לנקות את
כדי להימנע מחיובים עתידיים בחשבון שלך, מחק את המשאבים שיצרת בהדרכה זו. אשכול ה-EMR יגרור חיובים כל עוד האשכול פעיל, אז עצור אותו כשתסיים.
- במסוף CloudFormation, בחלונית הניווט, בחר ערימות.
- בחר את הערימה שהשקת (
EMR-CloudWatch-Demo
), אז תבחר מחק. - רוקן את דלי S3 שיצרת.
- מחק את דלי S3 שיצרת.
סיכום
כעת, לאחר שהשלמת את השלבים בהדרכה זו, סוכן CloudWatch פועל על מארחי האשכולות שלך ומוגדר לדחוף יומני צעדים של EMR ל-CloudWatch. עם תכונה זו, אתה יכול לפקח ביעילות על הבריאות והביצועים של עבודות Spark שלך הפועלות על אמזון EMR, לזהות בעיות קריטיות בזמן אמת ולזהות את גורמי השורש במהירות.
אתה יכול לארוז ולפרוס את הפתרון הזה באמצעות תבנית CloudFormation כמו תבנית זו לדוגמה, שיוצרת את תפקיד פרופיל המופע של IAM, פרמטר מנהל מערכות ואשכול EMR.
כדי לקחת את זה הלאה, שקול להשתמש ביומנים האלה באזעקות CloudWatch להתראות על א מסנן קבוצה-מטרי יומן. אתה יכול לאסוף אותם עם אזעקות אחרות לתוך א אזעקה מורכבת או להגדיר פעולות אזעקה כגון שליחה שירות התראה פשוט של אמזון (Amazon SNS) התראות להפעלת תהליכים מונעי אירועים כגון AWS למבדה פונקציות.
על המחבר
אניו פסטור הוא ארכיטקט נתונים בכיר בצוות מעבדת הנתונים של AWS. הוא חובב מכל מה שקשור לטכנולוגיות חדשות שיש להן השפעה חיובית על העסקים והפרנסה הכללית. לאניו ניסיון של למעלה מ-10 שנים בניתוח נתונים. הוא עוזר לחברות להגדיר ולהטמיע פלטפורמות נתונים בין תעשיות, כגון טלקומוניקציה, בנקאות, משחקים, קמעונאות וביטוח.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/big-data/push-amazon-emr-step-logs-from-amazon-ec2-instances-to-amazon-cloudwatch-logs/
- :הוא
- 1
- 10
- 100
- 9
- a
- אודות
- גישה
- חֶשְׁבּוֹן
- לרוחב
- פעולות
- פעיל
- תוספת
- כתובת
- סוֹכֵן
- אזעקה
- התראות
- תעשיות
- חלופה
- אמזון בעברית
- אמזון
- אמזון EMR
- ניתוח
- ו
- אַפָּשׁ
- אפאצ 'י ספארק
- בקשה
- יישומים
- ארכיטקטורה
- ARE
- AS
- At
- באופן אוטונומי
- AWS
- בנקאות
- מבוסס
- BE
- לפני
- להתחיל
- הטוב ביותר
- גָדוֹל
- נתונים גדולים
- אוזן נעל
- לִבנוֹת
- עסקים
- by
- CAN
- לכידה
- גורמים
- ערוץ
- חיובים
- לבחור
- אשכול
- לגבות
- חברות
- להשלים
- השלמת
- לחשב
- תְצוּרָה
- מקשר
- לשקול
- קונסול
- תוכן
- ברציפות
- ליבה
- מתכתב
- עלות תועלת
- עלויות
- יכול
- לִיצוֹר
- נוצר
- יוצר
- יוצרים
- קריטי
- אישית
- נתונים
- ניתוח נתונים
- בְּרִירַת מֶחדָל
- מדגים
- לפרוס
- פרס
- פורס
- אחר
- ספריות
- מופץ
- מטה
- נהיגה
- כל אחד
- מוקדם יותר
- קל יותר
- הד
- יעילות
- מאפשר
- נלהב
- שגיאה
- חיוני
- Ether (ETH)
- אירוע
- אירועים
- הכל
- דוגמה
- צפוי
- ניסיון
- יצוא
- ביטויים
- נכשל
- מאפיין
- שלח
- קבצים
- לסנן
- מסננים
- הבא
- כדלקמן
- בעד
- החל מ-
- פונקציות
- נוסף
- עתיד
- המשחקים
- כללי
- נוצר
- Go
- יותר
- קְבוּצָה
- קבוצה
- מדריך
- יש
- בְּרִיאוּת
- לעזור
- מועיל
- עוזר
- מאוד
- מארחים
- איך
- איך
- HTML
- http
- HTTPS
- IAM
- ID
- לזהות
- זיהוי
- פְּגִיעָה
- ליישם
- יישום
- חשוב
- in
- לכלול
- כולל
- כולל
- בנפרד
- תעשיות
- מידע
- תשתית
- להתקין
- התקנה
- למשל
- ביטוח
- מוֹדִיעִין
- בעיות
- IT
- עבודה
- מקומות תעסוקה
- jpg
- ג'סון
- מעבדה
- לשגר
- הושק
- השקות
- רמה
- כמו
- טוען
- מקומי
- ארוך
- תחזוקה
- לעשות
- לנהל
- מנהל
- דרך
- אומר
- מדדים
- לשנות
- צג
- ניטור
- יותר
- מספר
- שם
- שם
- ניווט
- נחוץ
- צורך
- חדש
- טכנולוגיות חדשות
- הבא
- צומת
- צמתים
- הודעה
- הודעות
- מספר
- of
- מוצע
- on
- ONE
- קוד פתוח
- מבצעי
- אחר
- תפוקה
- חבילה
- זגוגית
- פרמטר
- פרמטרים
- מסוים
- במיוחד
- נתיב
- ביצועים
- פלטפורמות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- חיובי
- הודעה
- תרגול
- מוצג
- יְסוֹדִי
- תהליכים
- תהליך
- פּרוֹפִיל
- לספק
- מספק
- אַספָּקָה
- דחוף
- דוחף
- מהירות
- ממשי
- זמן אמת
- להמליץ
- רגיל
- קָשׁוּר
- לשחרר
- להשאר
- משאבים
- תוצאות
- קמעוני
- סקירה
- תפקיד
- שורש
- הפעלה
- ריצה
- להרחבה
- סעיפים
- אבטחה
- שליחה
- לחצני מצוקה לפנסיונרים
- סדרה
- שרות
- מושב
- סט
- צריך
- פָּשׁוּט
- So
- תוכנה
- פִּתָרוֹן
- כמה
- לעורר
- ספציפי
- לערום
- תֶקֶן
- התחלה
- החל
- התחלות
- שלב
- צעדים
- עצור
- אחסון
- חנויות
- התייעלות
- זרמים
- המשנה
- בהצלחה
- כזה
- סודו
- מערכת
- מערכות
- לקחת
- נבחרת
- טכנולוגיות
- התקשורת
- תבנית
- זֶה
- אל האני
- אותם
- אלה
- שְׁלוֹשָׁה
- דרך
- זמן
- סדרת זמן
- ל
- להתחקות
- להפעיל
- להשתמש
- ערך
- אימות
- לצפיה
- בהדרכה
- שעונים
- דֶרֶך..
- אשר
- בזמן
- יצטרך
- עם
- לְלֹא
- תיק עבודות
- זרימת עבודה
- כתיבה
- כתוב
- יאמל
- שנים
- זפירנט