Amazon EMR משיקה תמיכה במופעי Amazon EC2 C7g (Graviton3) כדי לשפר את ביצועי העלויות לעומסי העבודה של Spark ב-7–13%

Amazon EMR משיקה תמיכה במופעי Amazon EC2 C7g (Graviton3) כדי לשפר את ביצועי העלויות לעומסי העבודה של Spark ב-7–13%

צומת המקור: 1935298

אמזון EMR מספק שירות מנוהל להפעלת יישומי ניתוח בקלות באמצעות מסגרות קוד פתוח כגון Apache Spark, Hive, Presto, Trino, HBase ו-Flink. זמן הריצה של אמזון EMR עבור לעורר ו פרסטו כולל אופטימיזציות המספקות פי שניים משיפורי הביצועים בהשוואה ל-Apache Spark ו-Presto בקוד פתוח.

עם אמזון EMR גרסה 6.7, אתה יכול כעת להשתמש ענן מחשוב אלסטי של אמזון (Amazon EC2) מופעי C7g, המשתמשים ב- AWS Graviton3 מעבדים. מופעים אלה משפרים את ביצועי המחיר של הפעלת עומסי עבודה של Spark ב- Amazon EMR ב-7.93-13.35% לעומת מופעים מהדור הקודם, בהתאם לגודל המופע. בפוסט זה, אנו מתארים כיצד הערכנו את התועלת במחיר-ביצועים.

ביצועי זמן ריצה של Amazon EMR עם מופעי EC2 C7g

הרצנו שאילתות השוואת TPC-DS 3 TB ב-Amazon EMR 6.9 תוך שימוש בזמן הריצה של Amazon EMR עבור Apache Spark (תואם ל-Apache Spark 3.3) עם מופעי C7g. הנתונים אוחסנו ב שירות אחסון פשוט של אמזון (Amazon S3), והתוצאות הושוו לאשכולות C6g מקבילים ממשפחת המופעים מהדור הקודם. מדדנו שיפורים בביצועים באמצעות זמן הריצה הכולל של השאילתה והממוצע הגיאומטרי של זמן הריצה של השאילתה על פני שאילתות בנצ'מרק של TPC-DS 3 TB.

התוצאות שלנו הראו שיפור של 13.65–18.73% בביצועי זמן הריצה הכוללים של שאילתות ושיפור של 16.98–20.28% בממוצע הגיאומטרי באשכולות EMR עם C7g בהשוואה לאשכולות EMR מקבילות עם מופעי C6g, בהתאם לגודל המופע. בהשוואת עלויות, ראינו הפחתה של 7.93-13.35% בעלויות באשכול EMR ​​עם C7g בהשוואה למקבילה עם C6g, בהתאם לגודל המופע. לא מדדנו את המופע של C6g xlarge מכיוון שלא היה לו מספיק זיכרון כדי להפעיל את השאילתות.

הטבלה הבאה מציגה את התוצאות מהרצת שאילתות ההשוואה של TPC-DS 3 TB באמצעות Amazon EMR 6.9 בהשוואה לאשכולות EMR של מופעי C7g ו-C6g מקבילים.

גודל מופע 16 XL 12 XL 8 XL 4 XL 2 XL
הגודל הכולל של האשכול (מנהיג אחד + 1 צמתים ליבה) 6 6 6 6 6
זמן ריצה כולל של שאילתה ב-C6g (שניות) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
זמן ריצה כולל של שאילתה ב-C7g (שניות) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
שיפור כולל של זמן ריצה של שאילתות עם C7g 13.65% 15.13% 14.95% 18.73% 16.64%
זמן ריצה של שאילתת ממוצע גיאומטרי C6g (שניות) 22.2113 21.75459 23.38081 31.97192 45.41656
זמן ריצה של שאילתת ממוצע גיאומטרי C7g (שניות) 18.43905 17.65898 19.01684 25.48695 37.43737
שיפור זמן ריצה של שאילתות ממוצע גיאומטרי עם C7g 16.98% 18.83% 18.66% 20.28% 17.57%
מחיר מופע EC2 C6g ($ לשעה) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
מחיר מופע EMR C6g ($ לשעה) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
מחיר מופע (EC2 + EMR) ($ לשעה) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
עלות ההפעלה ב-C6g ($ למופע) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
מחיר מופע EC2 C7g ($ לשעה) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
מחיר EMR C7g ($ לשעה למופע) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) מחיר מופע C7g ($ לשעה) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
עלות ההפעלה ב-C7g ($ למופע) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
הפחתת עלות כוללת עם C7g כולל שיפור ביצועים -7.93% -9.52% -9.32% -13.35% -11.13%

הגרף הבא מציג שיפורים לכל שאילתה שנצפו במופעי C7g 2xlarge בהשוואה לדורות מקבילים של C6g.

מתודולוגיית בנצ'מרקינג

המדד המשמש בפוסט זה נגזר ממדד TPC-DS הסטנדרטי בתעשייה, ומשתמש בשאילתות מה- Spark SQL Performance Tests Repo GitHub עם העוקבים תיקוני הוחל.

חישבנו TCO על ידי הכפלת העלות לשעה במספר המופעים באשכול ובזמן שנדרש להפעלת השאילתות באשכול. השתמשנו בתמחור לפי דרישה באזור מזרח ארה"ב (נ' וירג'יניה) בכל המקרים.

סיכום

בפוסט זה, תיארנו כיצד הערכנו את התועלת בעלות-ביצועים משימוש ב- Amazon EMR עם מופעי C7g בהשוואה לשימוש במופעים מקבילים מהדור הקודם. שימוש במופעים חדשים אלה עם Amazon EMR משפר את ביצועי העלות ב-7–13% נוספים.


על המחברים

AI MSאל מ.ס הוא מנהל מוצר עבור Amazon EMR ב- Amazon Web Services.

Kyeonghyun Ryoo הוא מהנדס פיתוח תוכנה עבור EMR בשירותי האינטרנט של אמזון. הוא עובד בעיקר על תכנון ובניית כלי אוטומציה עבור צוותים פנימיים ולקוחות כדי למקסם את הפרודוקטיביות שלהם. מחוץ לעבודה, הוא אלוף עולם בדימוס בגיימינג מקצועי שעדיין נהנה לשחק במשחקי וידאו.

Yuzhou Sun הוא מהנדס פיתוח תוכנה עבור EMR ב- Amazon Web Services.

סטיב קונסה הוא מנהל הנדסה עבור EMR בשירותי האינטרנט של אמזון.

בול זמן:

עוד מ AWS Big Data