کاهش هزینه های آمازون EMR Cluster تا 19٪ با پیشرفت های جدید در مقیاس پذیری مدیریت شده Amazon EMR

بازنشر افلاطون

دنبال: 0

در ژوئن 2020، AWS در دسترس بودن عمومی را اعلام کرد مقیاس پذیری مدیریت شده آمازون EMR. با مقیاس‌گذاری مدیریت‌شده EMR، حداقل و حداکثر محدودیت‌های محاسباتی را برای خوشه‌های خود مشخص می‌کنید و آمازون EMR به‌طور خودکار اندازه خوشه شما را برای عملکرد بهینه و استفاده از منابع تغییر می‌دهد. مقیاس مدیریت شده EMR به طور مداوم معیارهای کلیدی مرتبط با بار کاری را بررسی می کند و از الگوریتمی استفاده می کند که اندازه خوشه را برای بهترین استفاده از منابع بهینه می کند. با توجه به اینکه این ویژگی به طور کامل مدیریت می شود، بهبودهای الگوریتم بلافاصله بدون نیاز به ارتقاء نسخه محقق می شود. آمازون EMR می‌تواند خوشه را در زمان‌های اوج افزایش دهد و در دوره‌های بی‌کاری به‌خوبی آن را کاهش دهد، هزینه‌های شما را کاهش دهد و ظرفیت خوشه را برای بهترین عملکرد بهینه‌سازی کند.

در طول سال 2022، ما پیشرفت های متعددی در الگوریتم مقیاس بندی مدیریت شده EMR انجام دادیم. با این پیشرفت‌ها، مشاهده کردیم که برای خوشه‌هایی که با مقیاس‌گذاری مدیریت‌شده EMR فعال شده‌اند، استفاده تا 15 درصد بهبود یافته و هزینه‌های کل تا 19 درصد کاهش یافته است. از اواسط دسامبر 2022، پیشرفت‌های مقیاس‌پذیری مدیریت‌شده EMR به‌طور پیش‌فرض برای خوشه‌هایی با استفاده از آمازون EMR نسخه‌های 5.34.0 و جدیدتر و آمازون EMR نسخه‌های 6.4.0 و بالاتر برای خوشه‌های جدید و موجود فعال شد. علاوه بر این، با توجه به اینکه این ویژگی به طور کامل مدیریت می شود، به طور پیش فرض الگوریتم جدید بهینه سازی مقیاس بندی مدیریت شده را دریافت خواهید کرد و هیچ اقدامی در پایان شما لازم نیست.

در زیر برخی از پیشرفت‌های کلیدی که برای مقیاس‌بندی مدیریت‌شده EMR فعال کرده‌ایم فهرست شده‌اند:

بهبود استفاده از خوشه با کاهش هدفمند خوشه EMR شما
کاهش هزینه‌ها با جلوگیری از کوچک‌شدن نمونه‌هایی که داده‌های ترکیبی میانی را با استفاده از آن ذخیره می‌کنند آگاهی داده های Spark Shuffle
بهبود استفاده از خوشه و کاهش هزینه ها با افزایش تدریجی خوشه EMR شما

داستان های موفقیت مشتری

چگونه الگوریتم مقیاس‌پذیری مدیریت‌شده EMR به یک شرکت فناوری کمک کرد تا هزینه‌ها را کاهش دهد:

برای نشان دادن صرفه‌جویی در هزینه با مثال‌ها، ما به خوشه‌های EMR برای یک شرکت فناوری نگاه کردیم که به شدت از Amazon EMR برای پردازش داده‌های صورت‌حساب بلادرنگ بین Kafka و S3 با استفاده از Spark استفاده می‌کند. آنها یک خوشه EMR پایدار را با نسخه 5.35 EMR اجرا می کنند و مقیاس مدیریت شده EMR را روشن می کنند. داشبورد آمازون CloudWatch زیر نشان می دهد که چگونه از 21 دسامبر، الگوریتم مقیاس بندی مدیریت شده پیشرفته ارائه شده است. (کل گره های درخواستی) فقط 70 گره در مقابل الگوریتم قبلی مقیاس بندی مدیریت شده که 179 گره را برای یک نمایه شغلی مشابه ارائه می کرد. هرچه تعداد منابع تدارک دیده شده برای اجرای مشاغل شما کمتر باشد، هزینه کل خوشه EMR شما کمتر است.

چگونه الگوریتم EMR Managed Scaling به یک شرکت تبلیغاتی کمک کرد تا هزینه ها را کاهش دهد:

ما همچنین به یک خوشه EMR برای یک شرکت تبلیغاتی نگاه کردیم که از آمازون EMR برای استراتژی تجزیه و تحلیل داده خود استفاده می کند و کارهای دسته ای ETL خود را با استفاده از Spark اجرا می کند. آنها کلاسترهای خود را بر روی EMR نسخه 6.5 اجرا می کنند و مقیاس مدیریت شده EMR را روشن کرده اند. داشبورد آمازون CloudWatch زیر نشان می دهد که چگونه از 15 دسامبر، الگوریتم مقیاس بندی مدیریت شده پیشرفته ارائه شده است (کل واحدهای درخواستی) فقط 41 گره در مقابل الگوریتم قبلی مقیاس بندی مدیریت شده که 86 گره را برای یک نمایه شغلی مشابه ارائه می کرد.

تخمین صرفه جویی در هزینه و بهبود استفاده برای خوشه های EMR شما:

صرفه جویی در هزینه های خوشه ای:

برای مشاهده کاهش هزینه تخمین زده شده برای خوشه EMR خود با ارتقاء مقیاس مدیریت شده EMR، لطفاً مراحل زیر را دنبال کنید:

باز کردن کنسول متریک CloudWatch و زیر EMR، جستجو بر اساس شما ClusterId.
از لیست معیارهای موجود برای EMR، دو معیار زیر را انتخاب کنید:
- ظرفیت دویدن – بر اساس نوع واحدی که در خط‌مشی مقیاس‌بندی مدیریت‌شده خود مشخص کرده‌اید، این مورد به صورت «دردسترس خواهد بود.TotalUnits Running" یا "TotalNodes Running" یا "TotalVCPURunning".
- ظرفیت درخواست شده توسط مقیاس مدیریت شده – بر اساس نوع واحدی که در خط‌مشی مقیاس‌بندی مدیریت‌شده خود مشخص کرده‌اید، این مورد به صورت «دردسترس خواهد بود.TotalUnitsRequested" یا "TotalNodesRequested" یا "TotalVCPU درخواست شد".
هر دو معیار را در داشبورد CloudWatch خود ترسیم کنید.
چارچوب زمانی را به عنوان 3 ماه بین نوامبر 2022 و ژانویه 2023 انتخاب کنید تا بهبودها را با الگوریتم مقیاس بندی مدیریت شده بهبودیافته در مقایسه با الگوریتم مقیاس بندی مدیریت شده قبلی مشاهده کنید.

بهبود استفاده از خوشه:

برای تخمین بهبود در استفاده از خوشه EMR با بهبود مقیاس مدیریت شده EMR، لطفاً مراحل زیر را دنبال کنید:

کنسول متریک CloudWatch را باز کنید و در زیر EMR، جستجو بر اساس شما ClusterId.
از لیست معیارهای موجود برای EMR، "YARNMemoryAvailablePercentage” متریک
برای استخراج حافظه مورد استفاده توسط YARN، یک عبارت ریاضی مانند "افزودن ریاضی → شروع با عبارت خالی" اضافه کنید.
- برای عبارت ریاضی جدید، تنظیم کنید برچسب=استفاده از نخ و تنظیم جزئیات=100-YARNMemoryAvailablePercentage.
معیار استفاده از خوشه را در داشبورد CloudWatch خود ترسیم کنید.
چارچوب زمانی را به عنوان 3 ماه بین نوامبر 2022 و ژانویه 2023 انتخاب کنید تا بهبودها را با الگوریتم مقیاس بندی مدیریت شده بهبودیافته در مقایسه با الگوریتم مقیاس بندی مدیریت شده قبلی مشاهده کنید.

گام بعدی چیست

ما به تنظیم الگوریتم مقیاس‌پذیری مدیریت شده با هر نسخه جدید EMR ادامه می‌دهیم و در نتیجه تجربه مشتری را هنگام مقیاس‌بندی خوشه‌ها با مقیاس‌گذاری مدیریت‌شده EMR بهبود می‌دهیم.

نتیجه

در این پست، یک نمای کلی از بهبود کلیدی که در مقیاس‌پذیری مدیریت‌شده EMR راه‌اندازی کردیم، ارائه کردیم. با این پیشرفت‌ها، مشاهده کردیم که استفاده از خوشه تا 15 درصد بهبود یافت و هزینه خوشه تا 19 درصد کاهش یافت. از اواسط دسامبر 2022، این پیشرفت‌ها به‌طور پیش‌فرض برای خوشه‌های EMR با استفاده از آمازون EMR نسخه‌های 5.34.0 و جدیدتر، و آمازون EMR نسخه‌های 6.4.0 و بالاتر فعال شدند. با توجه به اینکه EMR Managed Scaling یک ویژگی کاملاً مدیریت شده است، الگوریتم جدید و بهینه سازی شده EMR Managed Scaling را به طور پیش فرض دریافت خواهید کرد و هیچ اقدامی از طرف شما لازم نیست.

برای کسب اطلاعات بیشتر و شروع با مقیاس پذیری مدیریت شده EMR، به سایت مراجعه کنید صفحه مستندات مقیاس مدیریت شده EMR.

درباره نویسنده

سوشانت ماجیتیا مدیر محصول اصلی برای EMR در خدمات وب آمازون است.

ویشال ویاس یک مهندس نرم افزار ارشد برای EMR در خدمات وب آمازون است.

متیو لیم یک مدیر ارشد معماری راه حل در AWS است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/big-data/reduce-amazon-emr-cluster-costs-by-up-to-19-with-new-enhancements-in-amazon-emr-managed-scaling/

تمبر زمان: فوریه 28، 2023

تمبر زمان: سپتامبر 22، 2023

کاهش هزینه‌های خوشه آمازون EMR تا 19٪ با پیشرفت‌های جدید در مقیاس‌گذاری مدیریت‌شده آمازون EMR

بازنشر افلاطون

داستان های موفقیت مشتری

تخمین صرفه جویی در هزینه و بهبود استفاده برای خوشه های EMR شما:

صرفه جویی در هزینه های خوشه ای:

بهبود استفاده از خوشه:

گام بعدی چیست

نتیجه

درباره نویسنده

بیشتر از داده های بزرگ AWS

پارتیشن های بیشتری ایجاد کنید و داده ها را برای مدت طولانی تری در خوشه های بدون سرور MSK خود حفظ کنید

استفاده از هوش مصنوعی مولد با Amazon EMR، Amazon Bedrock و English SDK برای Apache Spark برای باز کردن اطلاعات بینش | خدمات وب آمازون

هتل های BWH پذیرش هوش تجاری سازمانی را در عین کاهش هزینه ها با Amazon QuickSight | خدمات وب آمازون

کلاس لاگ جدید Amazon CloudWatch برای مقیاس بندی مقرون به صرفه بارهای کاری AWS Glue شما | خدمات وب آمازون

مدیریت خودکار داده با کیفیت داده چسب AWS، تشخیص داده های حساس و تشکیل دریاچه AWS | خدمات وب آمازون

از Amazon Athena با Spark SQL برای قالب‌های جدول تراکنشی منبع باز خود استفاده کنید | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب