آمازون EMR از نمونه‌های Amazon EC2 C7g (Graviton3) پشتیبانی می‌کند تا عملکرد هزینه را برای بارهای کاری Spark تا 7 تا 13 درصد بهبود بخشد.

آمازون EMR از نمونه‌های Amazon EC2 C7g (Graviton3) پشتیبانی می‌کند تا عملکرد هزینه را برای بارهای کاری Spark تا 7 تا 13 درصد بهبود بخشد.

گره منبع: 1935298

آمازون EMR یک سرویس مدیریت شده برای اجرای آسان برنامه های تحلیلی با استفاده از چارچوب های منبع باز مانند Apache Spark، Hive، Presto، Trino، HBase و Flink ارائه می دهد. زمان اجرا آمازون EMR برای جرقه و تند شامل بهینه سازی هایی است که در مقایسه با Apache Spark و Presto منبع باز، بیش از دو برابر بهبود عملکرد را ارائه می دهد.

با نسخه 6.7 آمازون EMR، اکنون می توانید استفاده کنید ابر محاسبه الاستیک آمازون (Amazon EC2) نمونه های C7g، که از AWS Graviton3 پردازنده ها این نمونه‌ها، بسته به اندازه نمونه، عملکرد قیمت-عملکرد بارهای کاری Spark را در آمازون EMR 7.93 تا 13.35 درصد نسبت به نمونه‌های نسل قبلی بهبود می‌بخشند. در این پست توضیح می‌دهیم که چگونه سود قیمت و عملکرد را تخمین زده‌ایم.

عملکرد زمان اجرا آمازون EMR با نمونه های EC2 C7g

ما پرس و جوهای بنچمارک TPC-DS 3 TB را در Amazon EMR 6.9 با استفاده از زمان اجرای Amazon EMR برای Apache Spark (سازگار با Apache Spark 3.3) با نمونه های C7g اجرا کردیم. داده ها در آن ذخیره شد سرویس ذخیره سازی ساده آمازون (Amazon S3)، و نتایج با کلاسترهای C6g معادل از خانواده نمونه نسل قبلی مقایسه شد. ما بهبود عملکرد را با استفاده از کل زمان اجرای پرس و جو و میانگین هندسی زمان اجرای پرس و جو در جستارهای معیار TPC-DS 3 ترابایت اندازه گیری کردیم.

نتایج ما بسته به اندازه نمونه، 13.65-18.73٪ بهبود در عملکرد کل زمان پرس و جو و 16.98-20.28٪ بهبود در میانگین هندسی در خوشه های EMR با C7g در مقایسه با خوشه های EMR معادل با نمونه های C6g، بسته به اندازه نمونه نشان داد. در مقایسه هزینه‌ها، بسته به اندازه نمونه، 7.93-13.35٪ کاهش در هزینه را در خوشه EMR با C7g در مقایسه با معادل با C6g مشاهده کردیم. ما نمونه C6g xlarge را بنچمارک نکردیم زیرا حافظه کافی برای اجرای کوئری ها نداشت.

جدول زیر نتایج حاصل از اجرای جستارهای معیار TPC-DS 3 TB با استفاده از آمازون EMR 6.9 را در مقایسه با کلاسترهای EMR نمونه C7g و C6g نشان می‌دهد.

اندازه نمونه 16 XL 12 XL 8 XL 4 XL 2 XL
اندازه کل خوشه (1 رهبر + 5 گره هسته) 6 6 6 6 6
کل زمان اجرای پرس و جو در C6g (ثانیه) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
کل زمان اجرای پرس و جو در C7g (ثانیه) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
بهبود کل زمان اجرای پرس و جو با C7g ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰
میانگین هندسی زمان اجرای پرس و جو C6g (ثانیه) 22.2113 21.75459 23.38081 31.97192 45.41656
میانگین هندسی زمان اجرای پرس و جو C7g (ثانیه) 18.43905 17.65898 19.01684 25.48695 37.43737
بهبود زمان اجرا میانگین هندسی با C7g ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰ ٪۱۰۰
قیمت نمونه EC2 C6g (دلار در ساعت) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
قیمت نمونه EMR C6g (دلار در ساعت) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
قیمت نمونه (EC2 + EMR) (دلار در ساعت) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
هزینه اجرا در C6g ($ در هر نمونه) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
قیمت نمونه EC2 C7g (دلار در ساعت) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
قیمت EMR C7g (دلار در ساعت در هر نمونه) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) قیمت نمونه C7g (دلار در ساعت) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
هزینه اجرا در C7g ($ در هر نمونه) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
کاهش هزینه کل با C7g از جمله بهبود عملکرد -7.93٪ -9.52٪ -9.32٪ -13.35٪ -11.13٪

نمودار زیر بهبودهای مشاهده شده در هر پرس و جو در نمونه های C7g 2xlarge را در مقایسه با نسل های C6g معادل نشان می دهد.

روش شناسی معیار

معیار استفاده شده در این پست از معیار استاندارد صنعتی TPC-DS مشتق شده است و از پرس و جوهایی از Spark SQL Performance Tests مخزن GitHub با موارد زیر ثابت کاربردی.

ما TCO را با ضرب هزینه در ساعت در تعداد نمونه‌های موجود در خوشه و زمان صرف شده برای اجرای پرس‌وجوها در خوشه محاسبه کردیم. ما برای همه موارد از قیمت گذاری بر اساس تقاضا در منطقه شرقی ایالات متحده (N. Virginia) استفاده کردیم.

نتیجه

در این پست توضیح دادیم که چگونه سود عملکرد هزینه استفاده از آمازون EMR با نمونه‌های C7g را در مقایسه با استفاده از نمونه‌های مشابه نسل قبلی برآورد کردیم. استفاده از این نمونه‌های جدید با آمازون EMR عملکرد هزینه را 7 تا 13 درصد افزایش می‌دهد.


درباره نویسندگان

AI MSآل ام اس مدیر محصول آمازون EMR در خدمات وب آمازون است.

کیونگهیون ریو یک مهندس توسعه نرم افزار برای EMR در خدمات وب آمازون است. او در درجه اول روی طراحی و ساخت ابزارهای اتوماسیون برای تیم های داخلی و مشتریان کار می کند تا بهره وری آنها را به حداکثر برساند. خارج از محل کار، او یک قهرمان بازنشسته جهان در بازی های حرفه ای است که هنوز از بازی های ویدیویی لذت می برد.

یوژو سان یک مهندس توسعه نرم افزار برای EMR در خدمات وب آمازون است.

استیو کونسه مدیر مهندسی EMR در خدمات وب آمازون است.

تمبر زمان:

بیشتر از داده های بزرگ AWS