در یادگیری عمیق، پردازش دسته ای به تغذیه چند ورودی به یک مدل اشاره دارد. اگرچه در طول آموزش ضروری است، اما مدیریت هزینه و بهینه سازی توان عملیاتی در طول زمان استنتاج نیز می تواند بسیار مفید باشد. شتاب دهنده های سخت افزاری برای موازی سازی بهینه شده اند و دسته بندی به اشباع ظرفیت محاسباتی کمک می کند و اغلب منجر به توان عملیاتی بالاتر می شود.
بچینگ می تواند در چندین سناریو در طول استقرار مدل در تولید مفید باشد. در اینجا ما آنها را به طور کلی به دو مورد استفاده دسته بندی می کنیم:
- برنامه های بلادرنگ که در آن چندین درخواست استنتاج از مشتریان مختلف دریافت می شود و به صورت پویا دسته بندی می شوند و به مدل سرویس دهی می شوند. تأخیر معمولاً در این موارد استفاده مهم است.
- برنامههای آفلاین که در آنها چندین ورودی یا درخواست در سمت مشتری دستهبندی میشوند و به مدل ارائهدهنده ارسال میشوند. توان عملیاتی بالاتر اغلب هدف این موارد استفاده است که به مدیریت هزینه کمک می کند. موارد استفاده مثال شامل تجزیه و تحلیل ویدئو و ارزیابی مدل است.
آمازون SageMaker دو گزینه محبوب برای کارهای استنتاج شما ارائه می دهد. برای برنامههای بلادرنگ، میزبانی SageMaker از TorchServe به عنوان کتابخانه سرویسدهی باطن استفاده میکند که دستهبندی پویا درخواستهای دریافتشده را مدیریت میکند. برای برنامه های آفلاین، می توانید از کارهای تبدیل دسته ای SageMaker استفاده کنید. در این پست، نمونهای از هر گزینه را بررسی میکنیم تا به شما در شروع کار کمک کنیم.
زیرا TorchServe به صورت بومی است با SageMaker یکپارچه شده است از طریق جعبه ابزار استنتاج PyTorch SageMaker، می توانید به راحتی یک مدل PyTorch را در TorchServe با استفاده از SageMaker Hosting مستقر کنید. همچنین ممکن است مواقعی وجود داشته باشد که لازم باشد محیط خود را با استفاده از تصاویر سفارشی Docker بیشتر سفارشی کنید. در این پست، ابتدا نحوه استقرار یک نقطه پایانی بلادرنگ را با استفاده از جعبه ابزار استنتاج بومی SageMaker PyTorch و پیکربندی اندازه دسته برای بهینهسازی توان عملیاتی نشان میدهیم. در مثال دوم، نحوه استفاده از یک تصویر Docker سفارشی برای پیکربندی تنظیمات TorchServe پیشرفته که به عنوان متغیر محیطی برای بهینهسازی کار استنتاج دستهای شما در دسترس نیستند را نشان میدهیم.
بهترین روش ها برای استنتاج دسته ای
پردازش دستهای میتواند توان عملیاتی را افزایش دهد و منابع شما را بهینه کند، زیرا به تکمیل تعداد بیشتری از استنتاجها در مدت زمان معینی به هزینه تأخیر کمک میکند. برای بهینه سازی استقرار مدل برای توان بالاتر، دستورالعمل کلی این است که اندازه دسته را تا زمانی که توان کاهش یابد افزایش دهید. این اغلب برای برنامههای آفلاین مناسب است، جایی که چندین ورودی (مانند فریمهای ویدیو، تصاویر یا متن) برای دریافت خروجیهای پیشبینی دستهبندی میشوند.
برای کاربردهای بلادرنگ، تأخیر اغلب یک نگرانی اصلی است. یک مبادله بین توان عملیاتی بالاتر و افزایش اندازه دسته و تاخیر وجود دارد. ممکن است لازم باشد در صورت نیاز تنظیم کنید تا SLA تأخیر خود را برآورده کنید. از نظر بهترین روشها در فضای ابری، هزینه به ازای تعداد معینی استنباط، راهنمای مفیدی برای تصمیمگیری آگاهانه است که نیازهای کسبوکار شما را برآورده میکند. یکی از عوامل موثر در مدیریت هزینه، انتخاب شتاب دهنده مناسب است. برای اطلاعات بیشتر ببین بهترین شتاب دهنده هوش مصنوعی و تلفیقی مدل را برای استنتاج بینایی کامپیوتری با Amazon SageMaker انتخاب کنید.
TorchServe دسته بندی پویا در SageMaker
TorchServe کتابخانه بومی PyTorch برای ارائه مدل ها در تولید در مقیاس است. این یک توسعه مشترک از فیس بوک و AWS است. TorchServe به شما اجازه می دهد تا نظارت کنید، معیارهای سفارشی را اضافه کنید، از مدل های متعدد پشتیبانی کنید، تعداد کارگران را از طریق API های مدیریت ایمن افزایش و کاهش دهید، و نقاط پایانی استنتاج و توضیح را ارائه دهید.
برای پشتیبانی از پردازش دسته ای، TorchServe یک ویژگی دسته بندی پویا ارائه می دهد. درخواست های دریافت شده را در یک بازه زمانی مشخص جمع می کند، آنها را با هم دسته بندی می کند و دسته را برای استنباط ارسال می کند. درخواست های دریافتی از طریق دست اندر کاران در TorchServe. TorchServe چندین کنترل کننده پیش فرض دارد و اگر مورد استفاده شما پوشش داده نشده باشد، می توانید یک کنترل کننده سفارشی بنویسید. هنگام استفاده از یک کنترل کننده سفارشی، مطمئن شوید که منطق استنتاج دسته ای در هندلر پیاده سازی شده است. نمونه ای از یک کنترل کننده سفارشی با پشتیبانی استنتاج دسته ای در دسترس است GitHub.
شما می توانید دسته بندی پویا را با استفاده از دو تنظیمات پیکربندی کنید. batch_size
و max_batch_delay
، یا از طریق متغیرهای محیطی در SageMaker یا از طریق config.properties
فایل در TorchServe (در صورت استفاده از یک ظرف سفارشی). TorchServe از هر یک از تنظیماتی که در ابتدا قرار می گیرند استفاده می کند، یا حداکثر اندازه دسته (batch_size
) یا پنجره زمانی مشخص شده برای منتظر ماندن برای دسته ای از درخواست ها max_batch_delay
.
با ادغام TorchServe با SageMaker، اکنون می توانید مدل های PyTorch را به صورت بومی در SageMaker مستقر کنید، جایی که می توانید یک مدل SageMaker PyTorch را تعریف کنید. میتوانید بارگذاری مدل سفارشی، استنتاج، و منطق پیشپردازش و پسپردازش را در یک اسکریپت که بهعنوان نقطه ورودی به PyTorch SageMaker ارسال میشود، اضافه کنید (به مثال کد زیر مراجعه کنید). از طرف دیگر، می توانید از یک کانتینر سفارشی برای استقرار مدل های خود استفاده کنید. برای اطلاعات بیشتر ببین سرور مدل SageMaker PyTorch.
شما می توانید اندازه دسته را برای مدل های PyTorch در SageMaker از طریق متغیرهای محیطی تنظیم کنید. اگر میخواهید از یک ظرف سفارشی استفاده کنید، میتوانید بستهبندی کنید تنظیمات in config.properties
با مدل خود هنگام بسته بندی مدل خود در TorchServe. قطعه کد زیر نمونه ای از نحوه تنظیم اندازه دسته با استفاده از متغیرهای محیطی و نحوه استقرار یک مدل PyTorch در SageMaker را نشان می دهد:
در قطعه کد، model_artifact
به تمام فایل های مورد نیاز برای بارگذاری مجدد مدل آموزش داده شده اشاره دارد که در یک فایل tar بایگانی شده و به یک فایل فشار داده می شود. سرویس ذخیره سازی ساده آمازون سطل (Amazon S3). inference.py شبیه به کنترل کننده سفارشی TorchServe است. چندین توابع دارد که می توانید آنها را نادیده بگیرید تا مقدار اولیه مدل، پیش پردازش و پس پردازش درخواست های دریافتی و منطق استنتاج را تطبیق دهید.
در زیر دفتر یادداشت نمونه کاملی از استقرار مدل BERT Hugging Face را نشان می دهد.
اگر به یک کانتینر سفارشی نیاز دارید، میتوانید یک تصویر ظرف سفارشی بسازید و آن را به آن فشار دهید رجیستری ظروف الاستیک آمازون مخزن (Amazon ECR). مصنوع مدل در این مورد میتواند یک فایل TorchServe .mar باشد که آرتیفکتهای مدل را به همراه هندلر جمع میکند. ما این را در بخش بعدی نشان می دهیم، جایی که از یک کار تبدیل دسته ای SageMaker استفاده می کنیم.
کار تبدیل دسته ای SageMaker
SageMaker برای موارد استفاده آفلاین که درخواستها از یک منبع داده مانند مجموعه داده دستهبندی میشوند کارهای تبدیل دسته ای. این کارها شما را قادر می سازد تا داده ها را از یک سطل S3 بخوانید و نتایج را در یک سطل S3 هدف بنویسید. برای اطلاعات بیشتر ببین از تبدیل دسته ای برای دریافت استنتاج از مجموعه داده های بزرگ استفاده کنید. یک مثال کامل از استنتاج دسته ای با استفاده از کارهای تبدیل دسته ای را می توان در ادامه یافت دفتر یادداشت، جایی که ما از یک مدل ترجمه ماشینی از مسابقه FLORES استفاده می کنیم. در این مثال، ما نشان میدهیم که چگونه از یک ظرف سفارشی برای امتیاز دادن به مدل خود با استفاده از SageMaker استفاده کنیم. استفاده از یک محفظه استنتاج سفارشی به شما امکان می دهد پیکربندی TorchServe خود را بیشتر سفارشی کنید. در این مثال، ما می خواهیم رمزگشایی JSON را تغییر داده و غیرفعال کنیم، که می توانیم از طریق TorchServe این کار را انجام دهیم. config.properties
فایل.
هنگام استفاده از یک هندلر سفارشی برای TorchServe، باید مطمئن شویم که هندلر منطق استنتاج دسته ای را پیاده سازی می کند. هر کنترل کننده می تواند توابع سفارشی برای انجام پیش پردازش، استنتاج و پس پردازش داشته باشد. نمونه ای از یک کنترل کننده سفارشی با پشتیبانی استنتاج دسته ای در دسترس است GitHub.
ما از کانتینر سفارشی خود برای بستهبندی آرتیفکتهای مدل با هندلر استفاده میکنیم، همانطور که در TorchServe انجام میدهیم (ساخت فایل .mar). ما همچنین به یک نقطه ورود به ظرف Docker نیاز داریم که TorchServe را با اندازه دسته ای و رمزگشایی JSON تنظیم شده است. config.properties
. ما این را در مثال نشان می دهیم دفتر یادداشت.
کار تبدیل دسته ای SageMaker نیاز به دسترسی به فایل های ورودی از یک سطل S3 دارد، جایی که فایل های ورودی را به دسته های کوچک تقسیم می کند و آنها را برای استنباط ارسال می کند. هنگام پیکربندی کار تبدیل دسته ای به نکات زیر توجه کنید:
- فایل های ورودی (مانند مجموعه داده) را در یک سطل S3 قرار دهید و آن را به عنوان منبع داده در تنظیمات کار تنظیم کنید.
- یک سطل S3 اختصاص دهید که در آن نتایج کار تبدیل دسته ای ذخیره شود.
- تنظیم استراتژی دسته ای به
MultiRecord
وSplitType
بهLine
اگر برای ساختن دسته های کوچک از فایل ورودی به کار تبدیل دسته ای نیاز دارید. اگر نمی تواند به طور خودکار مجموعه داده را به دسته های کوچک تقسیم کند، می توانید با قرار دادن هر دسته در یک فایل ورودی جداگانه که در سطل منبع داده S3 قرار می گیرد، آن را به دسته های کوچک تقسیم کنید. - اطمینان حاصل کنید که اندازه دسته با حافظه متناسب است. SageMaker معمولاً این کار را به طور خودکار انجام می دهد. با این حال، هنگام تقسیم دسته ها به صورت دستی، این باید بر اساس حافظه تنظیم شود.
کد زیر نمونه ای برای کار تبدیل دسته ای است:
هنگامی که از تنظیمات قبلی استفاده می کنیم و کار تبدیل خود را راه اندازی می کنیم، فایل های ورودی را از سطل منبع S3 به صورت دسته ای می خواند و آنها را برای استنباط ارسال می کند. نتایج به سطل S3 مشخص شده برای خروجی ها باز می گردد.
قطعه کد زیر نحوه ایجاد و راه اندازی یک کار را با استفاده از تنظیمات قبلی نشان می دهد:
نتیجه
در این پست دو حالت پیشنهادی SageMaker برای استنتاج آنلاین و آفلاین را بررسی کردیم. اولی از دسته بندی پویا ارائه شده در TorchServe برای دسته بندی درخواست های چندین مشتری استفاده می کند. دومی از یک کار تبدیل SageMaker برای دستهبندی درخواستها از فایلهای ورودی در یک سطل S3 و اجرای استنتاج استفاده میکند.
ما همچنین نشان دادیم که چگونه میتوان مدلها را در SageMaker با استفاده از تصاویر محفظه جعبه ابزار استنتاج PyTorch بومی SageMaker، و نحوه استفاده از کانتینرهای سفارشی برای موارد استفاده که به تنظیمات پیکربندی پیشرفته TorchServe نیاز دارند، ارائه داد.
همانطور که TorchServe برای رفع نیازهای جامعه PyTorch به تکامل خود ادامه میدهد، ویژگیهای جدیدی در SageMaker ادغام میشوند تا راههای کارآمدی را برای ارائه مدلها در تولید ارائه دهند. برای اطلاعات بیشتر، بررسی کنید TorchServe GitHub مخزن و نمونه های SageMaker.
درباره نویسنده
فی نگوین یک معمار راه حل در AWS است که به مشتریان در سفر ابری خود با تمرکز ویژه بر دریاچه داده، تجزیه و تحلیل، فناوری های معناشناسی و یادگیری ماشین کمک می کند. در اوقات فراغت، می توانید او را در حال دوچرخه سواری به محل کار، مربیگری تیم فوتبال پسرش یا لذت بردن از طبیعت گردی با خانواده اش بیابید.
نیکیل کولکارنی یک توسعهدهنده نرمافزار با یادگیری ماشینی AWS است که بر روی کارآمدتر کردن بارهای کاری یادگیری ماشین در فضای ابری تمرکز دارد و یکی از سازندههای AWS Deep Learning Containers برای آموزش و استنتاج است. او مشتاق سیستم های یادگیری عمیق توزیع شده است. در خارج از محل کار، او از خواندن کتاب، بازی با گیتار و درست کردن پیتزا لذت می برد.
حمید شجاعی یک مهندس شریک در Pytorch است که روی بهینهسازی و ارائه مدل با عملکرد بالا OSS کار میکند. حمید دارای مدرک دکترای بینایی کامپیوتر است و به عنوان محقق در آزمایشگاه های چند رسانه ای در استرالیا، مالزی و سرپرست NLP در Opus.ai کار کرده است. او دوست دارد راه حل های ساده تری برای مشکلات سخت پیدا کند و در اوقات فراغت خود از علاقه مندان به هنر است.
گیتا چاوهان رهبری مهندسی شریک هوش مصنوعی در Meta AI با تخصص در ساختن پلتفرم های توزیع شده انعطاف پذیر، ضد شکننده و در مقیاس بزرگ برای استارت آپ ها و Fortune 500s. تیم او با شرکای استراتژیک، رهبران یادگیری ماشین در سراسر صنعت و همه ارائه دهندگان خدمات ابری بزرگ برای ایجاد و راهاندازی خدمات و تجربیات محصول جدید هوش مصنوعی کار میکند. و مدلهای PyTorch را از تحقیق به تولید میبرد. او برنده جایزه Women in IT – Silicon Valley – CTO سال 2019، سخنران برجسته ACM و رهبر فکری در موضوعاتی از اخلاق در هوش مصنوعی، یادگیری عمیق، بلاک چین، اینترنت اشیا است. او مشتاق ترویج استفاده از AI for Good است.
منبع: https://aws.amazon.com/blogs/machine-learning/optimize-your-inference-jobs-using-dynamic-batch-inference-with-torchserve-on-amazon-sagemaker/- '
- "
- 100
- 2019
- 9
- درباره ما
- شتاب دهنده
- شتاب دهنده ها
- دسترسی
- در میان
- نشانی
- AI
- معرفی
- هر چند
- آمازون
- آمازون SageMaker
- تحلیل
- علم تجزیه و تحلیل
- رابط های برنامه کاربردی
- برنامه های کاربردی
- هنر
- استرالیا
- در دسترس
- AWS
- بهترین
- بهترین شیوه
- بلاکچین
- کتاب
- ساختن
- بنا
- بسته
- کسب و کار
- ظرفیت
- موارد
- تغییر دادن
- مشتریان
- ابر
- رمز
- انجمن
- رقابت
- محاسبه
- چشم انداز کامپیوتر
- پیکر بندی
- ظرف
- ظروف
- ادامه
- CTO
- مشتریان
- داده ها
- دریاچه دریاچه
- یادگیری عمیق
- استقرار
- توسعه دهنده
- پروژه
- مختلف
- توزیع شده
- کارگر بارانداز
- کانتینر داکر
- در طی
- به آسانی
- نقطه پایانی
- مهندس
- مهندسی
- محیط
- اصول اخلاق
- مثال
- تجارب
- چهره
- فیس بوک
- خانواده
- ویژگی
- امکانات
- تغذیه
- نام خانوادگی
- تمرکز
- برای استارت آپ ها
- یافت
- کامل
- توابع
- سوالات عمومی
- GIF
- GitHub
- خوب
- سخت افزار
- کمک
- کمک می کند
- اینجا کلیک نمایید
- زیاد
- میزبانی وب
- چگونه
- چگونه
- HTTPS
- تصویر
- اجرا
- مهم
- افزایش
- افزایش
- صنعت
- اطلاعات
- یکپارچگی
- اینترنت اشیا
- IT
- کار
- شغل ها
- سفر
- آزمایشگاه
- بزرگ
- راه اندازی
- رهبری
- یادگیری
- کتابخانه
- لاین
- فراگیری ماشین
- ترجمه ماشین
- عمده
- ساخت
- مالزی
- مدیریت
- متا
- متریک
- ML
- مدل
- بیش
- ضروری
- ویژگی های جدید
- nlp
- پیشنهادات
- آنلاین
- گزینه
- گزینه
- بسته بندی
- شریک
- شرکای
- کارایی
- پیتزا
- سیستم عامل
- محبوب
- پیش گویی
- محصول
- تولید
- ارائه
- فراهم می کند
- مارماهی
- بالا بردن
- مطالعه
- زمان واقعی
- تحقیق
- منابع
- پاسخ
- نتایج
- دویدن
- حکیم ساز
- مقیاس
- معنایی
- خدمات
- خدمت
- تنظیم
- سیلیکون ولی (Silicon Valley)
- مشابه
- ساده
- اندازه
- فوتبال
- نرم افزار
- مزایا
- گوینده
- انشعاب
- آغاز شده
- نوپا
- وضعیت
- ذخیره سازی
- استراتژیک
- پشتیبانی
- سیستم های
- هدف
- فن آوری
- منبع
- فکر
- از طریق
- زمان
- با هم
- تاپیک
- آموزش
- دگرگون کردن
- دگرگونی
- ترجمه
- معمولا
- تصویری
- دید
- صبر کنيد
- در داخل
- زنان
- مهاجرت کاری
- مشغول به کار
- کارگران
- کارگر
- با این نسخهها کار
- سال