أطلقت Amazon EMR دعمًا لمثيلات Amazon EC2 C7g (Graviton3) لتحسين أداء التكلفة لأحمال عمل Spark بنسبة 7-13٪

أطلقت Amazon EMR دعمًا لمثيلات Amazon EC2 C7g (Graviton3) لتحسين أداء التكلفة لأحمال عمل Spark بنسبة 7-13٪

عقدة المصدر: 1935298

أمازون EMR يوفر خدمة مُدارة لتشغيل تطبيقات التحليلات بسهولة باستخدام أطر عمل مفتوحة المصدر مثل Apache Spark و Hive و Presto و Trino و HBase و Flink. وقت تشغيل Amazon EMR لـ شرارة و مقطع موسيقي سريع يتضمن تحسينات توفر أكثر من ضعف تحسينات الأداء مقارنة ببرنامج Apache Spark و Presto مفتوح المصدر.

مع الإصدار 6.7 من Amazon EMR ، يمكنك الآن استخدام الأمازون الحوسبة المرنة السحابية (Amazon EC2) مثيلات C7g ، والتي تستخدم امتداد أوس جرافيتون3 معالجات. تعمل هذه المثيلات على تحسين أداء سعر تشغيل أحمال عمل Spark على Amazon EMR بنسبة 7.93 إلى 13.35٪ عن مثيلات الجيل السابق ، اعتمادًا على حجم المثيل. في هذا المنشور ، نصف كيف قدرنا فائدة أداء السعر.

أداء وقت تشغيل Amazon EMR مع مثيلات EC2 C7g

قمنا بتشغيل استعلامات اختبار TPC-DS 3 تيرابايت على Amazon EMR 6.9 باستخدام وقت تشغيل Amazon EMR لـ Apache Spark (متوافق مع Apache Spark 3.3) مع مثيلات C7g. تم تخزين البيانات في خدمة تخزين أمازون البسيطة (Amazon S3) ، وتمت مقارنة النتائج بمجموعات C6g المكافئة من عائلة مثيلات الجيل السابق. قمنا بقياس تحسينات الأداء باستخدام إجمالي وقت تشغيل الاستعلام والمتوسط ​​الهندسي لوقت تشغيل الاستعلام عبر استعلامات اختبار TPC-DS 3 تيرابايت.

أظهرت نتائجنا تحسنًا بنسبة 13.65–18.73٪ في إجمالي أداء وقت تشغيل الاستعلام وتحسنًا بنسبة 16.98–20.28٪ في المتوسط ​​الهندسي على مجموعات EMR مع C7g مقارنةً بمجموعات EMR المكافئة مع مثيلات C6g ، اعتمادًا على حجم المثيل. عند مقارنة التكاليف ، لاحظنا انخفاضًا بنسبة 7.93 إلى 13.35٪ في التكلفة على مجموعة السجلات الطبية الإلكترونية باستخدام C7g مقارنة بما يعادله مع C6g ، اعتمادًا على حجم المثيل. لم نقم بقياس مثيل C6g xlarge لأنه لا يحتوي على ذاكرة كافية لتشغيل الاستعلامات.

يوضح الجدول التالي النتائج من تشغيل استعلامات قياس TPC-DS 3 تيرابايت باستخدام Amazon EMR 6.9 مقارنة بمثيلات EMR المكافئة لـ C7g و C6g.

حجم المثيل شنومكس زل شنومكس زل شنومكس زل شنومكس زل شنومكس زل
الحجم الإجمالي للمجموعة (قائد واحد + 1 عقد أساسية) 6 6 6 6 6
إجمالي وقت تشغيل الاستعلام على C6g (بالثواني) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
إجمالي وقت تشغيل الاستعلام على C7g (بالثواني) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
إجمالي وقت تشغيل الاستعلام تحسين مع C7g 13.65% 15.13% 14.95% 18.73% 16.64%
متوسط ​​وقت تشغيل الاستعلام الهندسي C6g (بالثواني) 22.2113 21.75459 23.38081 31.97192 45.41656
متوسط ​​وقت تشغيل الاستعلام الهندسي C7g (بالثواني) 18.43905 17.65898 19.01684 25.48695 37.43737
تحسين وقت تشغيل الاستعلام الهندسي باستخدام C7g 16.98% 18.83% 18.66% 20.28% 17.57%
سعر مثيل EC2 C6g (دولار لكل ساعة) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
سعر مثيل EMR C6g (دولار لكل ساعة) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) سعر المثيل (دولار لكل ساعة) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
تكلفة التشغيل على C6g (دولار لكل مثيل) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
سعر مثيل EC2 C7g (دولار لكل ساعة) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
سعر EMR C7g (دولار لكل ساعة لكل مثيل) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) سعر مثيل C7g (دولار لكل ساعة) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
تكلفة التشغيل على C7g (دولار لكل مثيل) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
خفض التكلفة الإجمالية باستخدام C7g بما في ذلك تحسين الأداء -7.93٪ -9.52٪ -9.32٪ -13.35٪ -11.13٪

يوضح الرسم البياني التالي التحسينات لكل استعلام التي لوحظت في مثيلات C7g 2xlarge مقارنة بأجيال C6g المكافئة.

منهجية المقارنة المعيارية

يتم اشتقاق معيار الأداء المستخدم في هذا المنشور من معيار TPC-DS المعياري الصناعي ، ويستخدم الاستعلامات من اختبارات أداء شرارة SQL GitHub repo مع GMT إصلاحات مطبقة.

حسبنا التكلفة الإجمالية للملكية (TCO) بضرب التكلفة لكل ساعة في عدد المثيلات في الكتلة والوقت المستغرق لتشغيل الاستعلامات في المجموعة. استخدمنا التسعير حسب الطلب في منطقة شرق الولايات المتحدة (شمال فيرجينيا) لجميع الحالات.

وفي الختام

في هذا المنشور ، وصفنا كيف قدرنا فائدة أداء التكلفة من استخدام Amazon EMR مع مثيلات C7g مقارنة باستخدام مثيلات الجيل السابق المكافئة. يؤدي استخدام هذه المثيلات الجديدة مع Amazon EMR إلى تحسين أداء التكلفة بنسبة 7-13٪ إضافية.


عن المؤلفين

منظمة العفو الدولية مرض التصلب العصبي المتعددآل MS هو مدير منتج لـ Amazon EMR في Amazon Web Services.

كيونغهيون ريو هو مهندس تطوير برمجيات EMR في Amazon Web Services. يعمل بشكل أساسي على تصميم وبناء أدوات الأتمتة للفرق الداخلية والعملاء لزيادة إنتاجيتهم. خارج العمل ، هو بطل عالمي متقاعد في الألعاب الاحترافية ولا يزال يستمتع بلعب ألعاب الفيديو.

يوتشو صن هو مهندس تطوير برمجيات EMR في Amazon Web Services.

ستيف كونسي هو مدير هندسة EMR في Amazon Web Services.

الطابع الزمني:

اكثر من بيانات AWS الضخمة