آمازون EMR پشتیبانی از نمونه های آمازون EC2 C7g (Graviton3) را برای بهبود عملکرد هزینه برای بارهای کاری Spark تا 7 تا 13 درصد راه اندازی می کند

بازنشر افلاطون

دنبال: 0

آمازون EMR یک سرویس مدیریت شده برای اجرای آسان برنامه های تحلیلی با استفاده از چارچوب های منبع باز مانند Apache Spark، Hive، Presto، Trino، HBase و Flink ارائه می دهد. زمان اجرا آمازون EMR برای جرقه و تند شامل بهینه سازی هایی است که در مقایسه با Apache Spark و Presto منبع باز، بیش از دو برابر بهبود عملکرد را ارائه می دهد.

با نسخه 6.7 آمازون EMR، اکنون می توانید استفاده کنید ابر محاسبه الاستیک آمازون (Amazon EC2) نمونه های C7g، که از AWS Graviton3 پردازنده ها این نمونه‌ها، بسته به اندازه نمونه، عملکرد قیمت-عملکرد بارهای کاری Spark را در آمازون EMR 7.93 تا 13.35 درصد نسبت به نمونه‌های نسل قبلی بهبود می‌بخشند. در این پست توضیح می‌دهیم که چگونه سود قیمت و عملکرد را تخمین زده‌ایم.

عملکرد زمان اجرا آمازون EMR با نمونه های EC2 C7g

ما پرس و جوهای بنچمارک TPC-DS 3 TB را در Amazon EMR 6.9 با استفاده از زمان اجرای Amazon EMR برای Apache Spark (سازگار با Apache Spark 3.3) با نمونه های C7g اجرا کردیم. داده ها در آن ذخیره شد سرویس ذخیره سازی ساده آمازون (Amazon S3)، و نتایج با کلاسترهای C6g معادل از خانواده نمونه نسل قبلی مقایسه شد. ما بهبود عملکرد را با استفاده از کل زمان اجرای پرس و جو و میانگین هندسی زمان اجرای پرس و جو در جستارهای معیار TPC-DS 3 ترابایت اندازه گیری کردیم.

نتایج ما بسته به اندازه نمونه، 13.65-18.73٪ بهبود در عملکرد کل زمان پرس و جو و 16.98-20.28٪ بهبود در میانگین هندسی در خوشه های EMR با C7g در مقایسه با خوشه های EMR معادل با نمونه های C6g، بسته به اندازه نمونه نشان داد. در مقایسه هزینه‌ها، بسته به اندازه نمونه، 7.93-13.35٪ کاهش در هزینه را در خوشه EMR با C7g در مقایسه با معادل با C6g مشاهده کردیم. ما نمونه C6g xlarge را بنچمارک نکردیم زیرا حافظه کافی برای اجرای کوئری ها نداشت.

جدول زیر نتایج حاصل از اجرای جستارهای معیار TPC-DS 3 TB با استفاده از آمازون EMR 6.9 را در مقایسه با کلاسترهای EMR نمونه C7g و C6g نشان می‌دهد.

اندازه نمونه	16 XL	12 XL	8 XL	4 XL	2 XL
اندازه کل خوشه (1 رهبر + 5 گره هسته)	6	6	6	6	6
کل زمان اجرای پرس و جو در C6g (ثانیه)	2774.86205	2752.84429	3173.08086	5108.45489	8697.08117
کل زمان اجرای پرس و جو در C7g (ثانیه)	2396.22799	2336.28224	2698.72928	4151.85869	7249.58148
بهبود کل زمان اجرای پرس و جو با C7g	٪۱۰۰	٪۱۰۰	٪۱۰۰	٪۱۰۰	٪۱۰۰
میانگین هندسی زمان اجرای پرس و جو C6g (ثانیه)	22.2113	21.75459	23.38081	31.97192	45.41656
میانگین هندسی زمان اجرای پرس و جو C7g (ثانیه)	18.43905	17.65898	19.01684	25.48695	37.43737
بهبود زمان اجرا میانگین هندسی با C7g	٪۱۰۰	٪۱۰۰	٪۱۰۰	٪۱۰۰	٪۱۰۰
قیمت نمونه EC2 C6g (دلار در ساعت)	$2.1760	$1.6320	$1.0880	$0.5440	$0.2720
قیمت نمونه EMR C6g (دلار در ساعت)	$0.5440	$0.4080	$0.2720	$0.1360	$0.0680
قیمت نمونه (EC2 + EMR) (دلار در ساعت)	$2.7200	$2.0400	$1.3600	$0.6800	$0.3400
هزینه اجرا در C6g ($ در هر نمونه)	$2.09656	$1.55995	$1.19872	$0.96493	$0.82139
قیمت نمونه EC2 C7g (دلار در ساعت)	$2.3200	$1.7400	$1.1600	$0.5800	$0.2900
قیمت EMR C7g (دلار در ساعت در هر نمونه)	$0.5800	$0.4350	$0.2900	$0.1450	$0.0725
(EC2 + EMR) قیمت نمونه C7g (دلار در ساعت)	$2.9000	$2.1750	$1.4500	$0.7250	$0.3625
هزینه اجرا در C7g ($ در هر نمونه)	$1.930290	$1.411500	$1.086990	$0.836140	$0.729990
کاهش هزینه کل با C7g از جمله بهبود عملکرد	-7.93٪	-9.52٪	-9.32٪	-13.35٪	-11.13٪

نمودار زیر بهبودهای مشاهده شده در هر پرس و جو در نمونه های C7g 2xlarge را در مقایسه با نسل های C6g معادل نشان می دهد.

روش شناسی معیار

معیار استفاده شده در این پست از معیار استاندارد صنعتی TPC-DS مشتق شده است و از پرس و جوهایی از Spark SQL Performance Tests مخزن GitHub با موارد زیر ثابت کاربردی.

ما TCO را با ضرب هزینه در ساعت در تعداد نمونه‌های موجود در خوشه و زمان صرف شده برای اجرای پرس‌وجوها در خوشه محاسبه کردیم. ما برای همه موارد از قیمت گذاری بر اساس تقاضا در منطقه شرقی ایالات متحده (N. Virginia) استفاده کردیم.

نتیجه

در این پست توضیح دادیم که چگونه سود عملکرد هزینه استفاده از آمازون EMR با نمونه‌های C7g را در مقایسه با استفاده از نمونه‌های مشابه نسل قبلی برآورد کردیم. استفاده از این نمونه‌های جدید با آمازون EMR عملکرد هزینه را 7 تا 13 درصد افزایش می‌دهد.

درباره نویسندگان

AI MS آل ام اس مدیر محصول آمازون EMR در خدمات وب آمازون است.

کیونگهیون ریو یک مهندس توسعه نرم افزار برای EMR در خدمات وب آمازون است. او در درجه اول روی طراحی و ساخت ابزارهای اتوماسیون برای تیم های داخلی و مشتریان کار می کند تا بهره وری آنها را به حداکثر برساند. خارج از محل کار، او یک قهرمان بازنشسته جهان در بازی های حرفه ای است که هنوز از بازی های ویدیویی لذت می برد.

یوژو سان یک مهندس توسعه نرم افزار برای EMR در خدمات وب آمازون است.

استیو کونسه مدیر مهندسی EMR در خدمات وب آمازون است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/

تمبر زمان: فوریه 1، 2023

تمبر زمان: اوت 11، 2023

آمازون EMR از نمونه‌های Amazon EC2 C7g (Graviton3) پشتیبانی می‌کند تا عملکرد هزینه را برای بارهای کاری Spark تا 7 تا 13 درصد بهبود بخشد.

بازنشر افلاطون

عملکرد زمان اجرا آمازون EMR با نمونه های EC2 C7g

روش شناسی معیار

نتیجه

درباره نویسندگان

بیشتر از داده های بزرگ AWS

کاهش هزینه‌های خوشه آمازون EMR تا 19٪ با پیشرفت‌های جدید در مقیاس‌گذاری مدیریت‌شده آمازون EMR

گزارش جریان VPC جریان VPC به Datadog از طریق Amazon Kinesis Data Firehose | خدمات وب آمازون

معرفی پشتیبانی مشترک VPC در آمازون MWAA | خدمات وب آمازون

با استفاده از چسب AWS و دلتا، ابعاد به آرامی در حال تغییر را در دریاچه داده اعمال کنید

مدل سازی ابعادی در آمازون Redshift | خدمات وب آمازون

استقرار Amazon OpenSearch Serverless با Terraform | خدمات وب آمازون

ایجاد یک خط لوله جریان بدون سرور با Amazon MSK Serverless، Amazon MSK Connect و MongoDB Atlas

چگونه Ontraport هزینه پردازش داده را 80٪ با چسب AWS کاهش داد | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب