در ژوئن 2020، AWS در دسترس بودن عمومی را اعلام کرد مقیاس پذیری مدیریت شده آمازون EMR. با مقیاسگذاری مدیریتشده EMR، حداقل و حداکثر محدودیتهای محاسباتی را برای خوشههای خود مشخص میکنید و آمازون EMR بهطور خودکار اندازه خوشه شما را برای عملکرد بهینه و استفاده از منابع تغییر میدهد. مقیاس مدیریت شده EMR به طور مداوم معیارهای کلیدی مرتبط با بار کاری را بررسی می کند و از الگوریتمی استفاده می کند که اندازه خوشه را برای بهترین استفاده از منابع بهینه می کند. با توجه به اینکه این ویژگی به طور کامل مدیریت می شود، بهبودهای الگوریتم بلافاصله بدون نیاز به ارتقاء نسخه محقق می شود. آمازون EMR میتواند خوشه را در زمانهای اوج افزایش دهد و در دورههای بیکاری بهخوبی آن را کاهش دهد، هزینههای شما را کاهش دهد و ظرفیت خوشه را برای بهترین عملکرد بهینهسازی کند.
در طول سال 2022، ما پیشرفت های متعددی در الگوریتم مقیاس بندی مدیریت شده EMR انجام دادیم. با این پیشرفتها، مشاهده کردیم که برای خوشههایی که با مقیاسگذاری مدیریتشده EMR فعال شدهاند، استفاده تا 15 درصد بهبود یافته و هزینههای کل تا 19 درصد کاهش یافته است. از اواسط دسامبر 2022، پیشرفتهای مقیاسپذیری مدیریتشده EMR بهطور پیشفرض برای خوشههایی با استفاده از آمازون EMR نسخههای 5.34.0 و جدیدتر و آمازون EMR نسخههای 6.4.0 و بالاتر برای خوشههای جدید و موجود فعال شد. علاوه بر این، با توجه به اینکه این ویژگی به طور کامل مدیریت می شود، به طور پیش فرض الگوریتم جدید بهینه سازی مقیاس بندی مدیریت شده را دریافت خواهید کرد و هیچ اقدامی در پایان شما لازم نیست.
در زیر برخی از پیشرفتهای کلیدی که برای مقیاسبندی مدیریتشده EMR فعال کردهایم فهرست شدهاند:
- بهبود استفاده از خوشه با کاهش هدفمند خوشه EMR شما
- کاهش هزینهها با جلوگیری از کوچکشدن نمونههایی که دادههای ترکیبی میانی را با استفاده از آن ذخیره میکنند آگاهی داده های Spark Shuffle
- بهبود استفاده از خوشه و کاهش هزینه ها با افزایش تدریجی خوشه EMR شما
داستان های موفقیت مشتری
چگونه الگوریتم مقیاسپذیری مدیریتشده EMR به یک شرکت فناوری کمک کرد تا هزینهها را کاهش دهد:
برای نشان دادن صرفهجویی در هزینه با مثالها، ما به خوشههای EMR برای یک شرکت فناوری نگاه کردیم که به شدت از Amazon EMR برای پردازش دادههای صورتحساب بلادرنگ بین Kafka و S3 با استفاده از Spark استفاده میکند. آنها یک خوشه EMR پایدار را با نسخه 5.35 EMR اجرا می کنند و مقیاس مدیریت شده EMR را روشن می کنند. داشبورد آمازون CloudWatch زیر نشان می دهد که چگونه از 21 دسامبر، الگوریتم مقیاس بندی مدیریت شده پیشرفته ارائه شده است. (کل گره های درخواستی) فقط 70 گره در مقابل الگوریتم قبلی مقیاس بندی مدیریت شده که 179 گره را برای یک نمایه شغلی مشابه ارائه می کرد. هرچه تعداد منابع تدارک دیده شده برای اجرای مشاغل شما کمتر باشد، هزینه کل خوشه EMR شما کمتر است.
چگونه الگوریتم EMR Managed Scaling به یک شرکت تبلیغاتی کمک کرد تا هزینه ها را کاهش دهد:
ما همچنین به یک خوشه EMR برای یک شرکت تبلیغاتی نگاه کردیم که از آمازون EMR برای استراتژی تجزیه و تحلیل داده خود استفاده می کند و کارهای دسته ای ETL خود را با استفاده از Spark اجرا می کند. آنها کلاسترهای خود را بر روی EMR نسخه 6.5 اجرا می کنند و مقیاس مدیریت شده EMR را روشن کرده اند. داشبورد آمازون CloudWatch زیر نشان می دهد که چگونه از 15 دسامبر، الگوریتم مقیاس بندی مدیریت شده پیشرفته ارائه شده است (کل واحدهای درخواستی) فقط 41 گره در مقابل الگوریتم قبلی مقیاس بندی مدیریت شده که 86 گره را برای یک نمایه شغلی مشابه ارائه می کرد.
تخمین صرفه جویی در هزینه و بهبود استفاده برای خوشه های EMR شما:
صرفه جویی در هزینه های خوشه ای:
برای مشاهده کاهش هزینه تخمین زده شده برای خوشه EMR خود با ارتقاء مقیاس مدیریت شده EMR، لطفاً مراحل زیر را دنبال کنید:
- باز کردن کنسول متریک CloudWatch و زیر EMR، جستجو بر اساس شما
ClusterId
. - از لیست معیارهای موجود برای EMR، دو معیار زیر را انتخاب کنید:
- ظرفیت دویدن – بر اساس نوع واحدی که در خطمشی مقیاسبندی مدیریتشده خود مشخص کردهاید، این مورد به صورت «دردسترس خواهد بود.TotalUnits Running" یا "TotalNodes Running" یا "TotalVCPURunning".
- ظرفیت درخواست شده توسط مقیاس مدیریت شده – بر اساس نوع واحدی که در خطمشی مقیاسبندی مدیریتشده خود مشخص کردهاید، این مورد به صورت «دردسترس خواهد بود.TotalUnitsRequested" یا "TotalNodesRequested" یا "TotalVCPU درخواست شد".
- هر دو معیار را در داشبورد CloudWatch خود ترسیم کنید.
- چارچوب زمانی را به عنوان 3 ماه بین نوامبر 2022 و ژانویه 2023 انتخاب کنید تا بهبودها را با الگوریتم مقیاس بندی مدیریت شده بهبودیافته در مقایسه با الگوریتم مقیاس بندی مدیریت شده قبلی مشاهده کنید.
بهبود استفاده از خوشه:
برای تخمین بهبود در استفاده از خوشه EMR با بهبود مقیاس مدیریت شده EMR، لطفاً مراحل زیر را دنبال کنید:
- کنسول متریک CloudWatch را باز کنید و در زیر EMR، جستجو بر اساس شما
ClusterId
. - از لیست معیارهای موجود برای EMR، "YARNMemoryAvailablePercentage” متریک
- برای استخراج حافظه مورد استفاده توسط YARN، یک عبارت ریاضی مانند "افزودن ریاضی → شروع با عبارت خالی" اضافه کنید.
- برای عبارت ریاضی جدید، تنظیم کنید برچسب=استفاده از نخ و تنظیم جزئیات=100-YARNMemoryAvailablePercentage.
- معیار استفاده از خوشه را در داشبورد CloudWatch خود ترسیم کنید.
- چارچوب زمانی را به عنوان 3 ماه بین نوامبر 2022 و ژانویه 2023 انتخاب کنید تا بهبودها را با الگوریتم مقیاس بندی مدیریت شده بهبودیافته در مقایسه با الگوریتم مقیاس بندی مدیریت شده قبلی مشاهده کنید.
گام بعدی چیست
ما به تنظیم الگوریتم مقیاسپذیری مدیریت شده با هر نسخه جدید EMR ادامه میدهیم و در نتیجه تجربه مشتری را هنگام مقیاسبندی خوشهها با مقیاسگذاری مدیریتشده EMR بهبود میدهیم.
نتیجه
در این پست، یک نمای کلی از بهبود کلیدی که در مقیاسپذیری مدیریتشده EMR راهاندازی کردیم، ارائه کردیم. با این پیشرفتها، مشاهده کردیم که استفاده از خوشه تا 15 درصد بهبود یافت و هزینه خوشه تا 19 درصد کاهش یافت. از اواسط دسامبر 2022، این پیشرفتها بهطور پیشفرض برای خوشههای EMR با استفاده از آمازون EMR نسخههای 5.34.0 و جدیدتر، و آمازون EMR نسخههای 6.4.0 و بالاتر فعال شدند. با توجه به اینکه EMR Managed Scaling یک ویژگی کاملاً مدیریت شده است، الگوریتم جدید و بهینه سازی شده EMR Managed Scaling را به طور پیش فرض دریافت خواهید کرد و هیچ اقدامی از طرف شما لازم نیست.
برای کسب اطلاعات بیشتر و شروع با مقیاس پذیری مدیریت شده EMR، به سایت مراجعه کنید صفحه مستندات مقیاس مدیریت شده EMR.
درباره نویسنده
سوشانت ماجیتیا مدیر محصول اصلی برای EMR در خدمات وب آمازون است.
ویشال ویاس یک مهندس نرم افزار ارشد برای EMR در خدمات وب آمازون است.
متیو لیم یک مدیر ارشد معماری راه حل در AWS است.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/big-data/reduce-amazon-emr-cluster-costs-by-up-to-19-with-new-enhancements-in-amazon-emr-managed-scaling/
- 2020
- 2022
- 2023
- 70
- 84
- a
- عمل
- تبلیغات
- الگوریتم
- آمازون
- آمازون EMR
- آمازون خدمات وب
- علم تجزیه و تحلیل
- و
- اعلام کرد
- معماری
- بطور خودکار
- دسترس پذیری
- در دسترس
- AWS
- مستقر
- در زیر
- بهترین
- میان
- صدور صورت حساب
- ظرفیت
- خوشه
- مقایسه
- به طور کامل
- محاسبه
- کنسول
- به طور مداوم
- ادامه دادن
- هزینه
- صرفه جویی در هزینه
- هزینه
- مشتری
- تجربه مشتری
- داشبورد
- داده ها
- تجزیه و تحلیل داده ها
- دسامبر
- به طور پیش فرض
- پایین
- در طی
- فعال
- مهندس
- افزایش
- سرمایه گذاری
- تخمین زدن
- برآورد
- اتر (ETH)
- هر
- مثال ها
- اجرا می کند
- موجود
- تجربه
- ویژگی
- به دنبال
- پیروی
- FRAME
- از جانب
- بیشتر
- سوالات عمومی
- دریافت کنید
- داده
- تدریجی
- به شدت
- کمک کرد
- چگونه
- HTML
- HTTPS
- آرام
- بلافاصله
- بهبود
- بهبود یافته
- ارتقاء
- in
- حد واسط
- IT
- ژانویه
- کار
- شغل ها
- کافکا
- کلید
- راه اندازی
- یاد گرفتن
- اهرم ها
- محدودیت
- فهرست
- نگاه
- ساخته
- اداره می شود
- مدیر
- ریاضی
- بیشترین
- حافظه
- متری
- متریک
- حد اقل
- مانیتور
- ماه
- بیش
- چندگانه
- ضروری
- نیازمند
- جدید
- گره
- نوامبر
- عدد
- بهینه
- بهینه
- بهینه سازی می کند
- بهینه سازی
- مروری
- در صد
- کارایی
- دوره ها
- افلاطون
- هوش داده افلاطون
- PlatoData
- لطفا
- سیاست
- پست
- جلوگیری
- قبلی
- اصلی
- روند
- محصول
- مدیر تولید
- مشخصات
- ارائه
- واقعی
- زمان واقعی
- متوجه
- كاهش دادن
- کاهش
- کاهش
- آزاد
- خواسته
- منابع
- منابع
- دویدن
- پس انداز
- مقیاس
- افزایش مقیاس
- مقیاس گذاری
- جستجو
- ارشد
- خدمات
- تنظیم
- نشان می دهد
- مخلوط کردن
- مشابه
- اندازه
- نرم افزار
- مهندس نرمافزار
- راه حل
- برخی از
- جرقه
- مشخص شده
- شروع
- آغاز شده
- راه افتادن
- مراحل
- opbevare
- استراتژی
- موفقیت
- چنین
- هدف قرار
- پیشرفته
- La
- شان
- در نتیجه
- زمان
- به
- جمع
- زیر
- واحد
- واحد
- ارتقاء
- استفاده
- نسخه
- چشم انداز
- وب
- خدمات وب
- که
- اراده
- بدون
- شما
- زفیرنت