کاهش زمان استنتاج برای مدل های BERT با استفاده از جستجوی معماری عصبی و تنظیم خودکار مدل SageMaker

بازنشر افلاطون

دنبال: 0

در این پست، نحوه استفاده از هرس ساختاری مبتنی بر جستجوی معماری عصبی (NAS) برای فشرده‌سازی یک مدل BERT تنظیم‌شده برای بهبود عملکرد مدل و کاهش زمان استنتاج را نشان می‌دهیم. مدل‌های زبانی از پیش آموزش‌دیده (PLM) در حوزه‌های ابزارهای بهره‌وری، خدمات مشتری، جستجو و توصیه‌ها، اتوماسیون فرآیند کسب‌وکار و ایجاد محتوا به سرعت در حال پذیرش تجاری و سازمانی هستند. استقرار نقاط پایانی استنتاج PLM معمولاً با تأخیر بالاتر و هزینه‌های زیرساخت بالاتر به دلیل نیازهای محاسباتی و کاهش کارایی محاسباتی به دلیل تعداد زیاد پارامترها همراه است. هرس کردن یک PLM اندازه و پیچیدگی مدل را کاهش می دهد و در عین حال قابلیت های پیش بینی آن را حفظ می کند. PLM های هرس شده به ردپای حافظه کمتر و تاخیر کمتری دست می یابند. ما نشان می‌دهیم که با هرس کردن یک PLM و مبادله کردن خطای شمارش پارامتر و اعتبارسنجی برای یک کار هدف خاص، و قادر به دستیابی به زمان‌های پاسخ سریع‌تر در مقایسه با مدل پایه PLM هستیم.

بهینه‌سازی چند هدفه حوزه‌ای از تصمیم‌گیری است که بیش از یک تابع هدف مانند مصرف حافظه، زمان آموزش و منابع محاسباتی را برای بهینه‌سازی همزمان بهینه می‌کند. هرس ساختاری تکنیکی است برای کاهش اندازه و الزامات محاسباتی PLM با هرس کردن لایه‌ها یا نورون‌ها/گره‌ها و در عین حال تلاش برای حفظ دقت مدل. با حذف لایه‌ها، هرس ساختاری به نرخ‌های فشرده‌سازی بالاتری دست می‌یابد، که منجر به پراکندگی ساختاری سازگار با سخت‌افزار می‌شود که زمان اجرا و زمان پاسخ را کاهش می‌دهد. استفاده از یک تکنیک هرس ساختاری در یک مدل PLM منجر به مدلی با وزن سبک‌تر با ردپای حافظه کمتری می‌شود که وقتی به عنوان نقطه پایانی استنتاج در SageMaker میزبانی می‌شود، در مقایسه با PLM تنظیم‌شده اولیه، کارایی منابع بهبود یافته و هزینه کاهش می‌یابد.

مفاهیم نشان‌داده‌شده در این پست را می‌توان برای برنامه‌هایی که از ویژگی‌های PLM استفاده می‌کنند، مانند سیستم‌های توصیه، تجزیه و تحلیل احساسات و موتورهای جستجو اعمال کرد. به طور خاص، اگر تیم‌های یادگیری ماشین (ML) و علم داده اختصاصی دارید که مدل‌های PLM خود را با استفاده از مجموعه داده‌های دامنه خاص تنظیم می‌کنند و تعداد زیادی نقطه پایانی استنتاج را با استفاده از آن‌ها به کار می‌گیرند، می‌توانید از این رویکرد استفاده کنید. آمازون SageMaker. یک مثال، یک خرده‌فروش آنلاین است که تعداد زیادی نقطه پایانی استنتاج را برای خلاصه‌سازی متن، طبقه‌بندی کاتالوگ محصول و طبقه‌بندی احساسات بازخورد محصول به کار می‌گیرد. مثال دیگر ممکن است ارائه‌دهنده مراقبت‌های بهداشتی باشد که از نقاط پایانی استنتاج PLM برای طبقه‌بندی اسناد بالینی، شناسایی موجودیت نام‌گذاری شده از گزارش‌های پزشکی، چت ربات‌های پزشکی و طبقه‌بندی ریسک بیمار استفاده می‌کند.

بررسی اجمالی راه حل

در این بخش، گردش کار کلی را ارائه کرده و رویکرد را توضیح می دهیم. ابتدا از an استفاده می کنیم Amazon SageMaker Studio دفتر یادداشت برای تنظیم دقیق یک مدل BERT از پیش آموزش دیده در یک کار هدف با استفاده از مجموعه داده های دامنه خاص. برت (نمایش رمزگذار دوطرفه از ترانسفورماتورها) یک مدل زبان از پیش آموزش دیده بر اساس معماری ترانسفورماتور برای وظایف پردازش زبان طبیعی (NLP) استفاده می شود. جستجوی معماری عصبی (NAS) رویکردی برای خودکارسازی طراحی شبکه‌های عصبی مصنوعی است و ارتباط نزدیکی با بهینه‌سازی فراپارامتر دارد، رویکردی که به طور گسترده در زمینه یادگیری ماشین مورد استفاده قرار می‌گیرد. هدف NAS یافتن معماری بهینه برای یک مسئله معین با جستجو در مجموعه بزرگی از معماری‌های کاندید با استفاده از تکنیک‌هایی مانند بهینه‌سازی بدون گرادیان یا با بهینه‌سازی معیارهای مورد نظر است. عملکرد معماری معمولاً با استفاده از معیارهایی مانند از دست دادن اعتبارسنجی اندازه گیری می شود. تنظیم خودکار مدل SageMaker (AMT) فرآیند خسته کننده و پیچیده یافتن ترکیب های بهینه ابرپارامترهای مدل ML را خودکار می کند که بهترین عملکرد مدل را به همراه دارد. AMT از الگوریتم های جستجوی هوشمند و ارزیابی های تکراری با استفاده از طیف وسیعی از فراپارامترهایی که شما مشخص می کنید استفاده می کند. مقادیر فراپارامتر را انتخاب می کند که مدلی را ایجاد می کند که بهترین عملکرد را دارد، همانطور که با معیارهای عملکرد مانند دقت و امتیاز F-1 اندازه گیری می شود.

رویکرد تنظیم دقیق توضیح داده شده در این پست عمومی است و می تواند برای هر مجموعه داده مبتنی بر متن اعمال شود. وظیفه تعیین شده به BERT PLM می تواند یک کار مبتنی بر متن مانند تجزیه و تحلیل احساسات، طبقه بندی متن یا پرسش و پاسخ باشد. در این نسخه نمایشی، وظیفه هدف یک مسئله طبقه‌بندی باینری است که در آن BERT برای شناسایی، از مجموعه داده‌ای که از مجموعه‌ای از جفت قطعات متنی تشکیل شده است، استفاده می‌شود، که آیا می‌توان معنای یک قطعه متن را از قطعه دیگر استنباط کرد یا خیر. ما استفاده می کنیم شناسایی مجموعه داده های متنی از مجموعه معیارهای GLUE. ما یک جستجوی چند هدفه را با استفاده از SageMaker AMT انجام می‌دهیم تا شبکه‌های فرعی را شناسایی کنیم که مبادلات بهینه را بین شمارش پارامترها و دقت پیش‌بینی برای کار هدف ارائه می‌دهند. هنگام انجام یک جستجوی چند هدفه، با تعریف دقت و شمارش پارامترها به عنوان اهدافی که قصد بهینه سازی آنها را داریم شروع می کنیم.

در شبکه BERT PLM، می‌توان شبکه‌های فرعی مدولار و مستقلی وجود داشت که به مدل اجازه می‌دهد قابلیت‌های تخصصی مانند درک زبان و نمایش دانش را داشته باشد. BERT PLM از یک شبکه فرعی خود توجهی چند سر و یک شبکه فرعی فید فوروارد استفاده می کند. یک لایه چند سر و خودتوجه به BERT اجازه می‌دهد تا موقعیت‌های مختلف یک دنباله را به منظور محاسبه نمایشی از دنباله با اجازه دادن به سرهای متعدد برای توجه به سیگنال‌های زمینه متعدد، مرتبط کند. ورودی به چندین زیرفضا تقسیم می شود و توجه به خود به طور جداگانه به هر یک از زیرفضاها اعمال می شود. سرهای متعدد در یک ترانسفورماتور PLM به مدل اجازه می دهد تا به طور مشترک به اطلاعات از زیرفضاهای نمایشی مختلف توجه کند. یک شبکه فرعی فید فوروارد یک شبکه عصبی ساده است که خروجی را از زیرشبکه خودتوجهی چند سر می گیرد، داده ها را پردازش می کند و نمایش های رمزگذار نهایی را برمی گرداند.

هدف از نمونه‌گیری تصادفی زیرشبکه، آموزش مدل‌های BERT کوچک‌تر است که می‌توانند به اندازه کافی در وظایف هدف خوب عمل کنند. ما 100 شبکه فرعی تصادفی را از مدل BERT پایه تنظیم شده نمونه برداری می کنیم و 10 شبکه را به طور همزمان ارزیابی می کنیم. شبکه‌های فرعی آموزش‌دیده برای معیارهای هدف ارزیابی می‌شوند و مدل نهایی بر اساس مبادلات موجود بین معیارهای هدف انتخاب می‌شود. ما تجسم می کنیم جلو پارتو برای زیرشبکه های نمونه برداری شده، که شامل مدل هرس شده است که مبادله بهینه بین دقت مدل و اندازه مدل را ارائه می دهد. ما زیرشبکه نامزد (مدل BERT هرس شده NAS) را بر اساس اندازه مدل و دقت مدل انتخاب می کنیم که مایل به معاوضه هستیم. در مرحله بعد، نقاط پایانی، مدل پایه BERT از پیش آموزش دیده، و مدل BERT هرس شده NAS را با استفاده از SageMaker میزبانی می کنیم. برای انجام تست بار استفاده می کنیم ملخ، یک ابزار تست بار منبع باز است که می توانید با استفاده از پایتون پیاده سازی کنید. ما تست بار را روی هر دو نقطه پایانی با استفاده از Locust اجرا می کنیم و نتایج را با استفاده از جلوی پارتو تجسم می کنیم تا مبادله بین زمان پاسخ و دقت را برای هر دو مدل نشان دهیم. نمودار زیر نمای کلی از گردش کار توضیح داده شده در این پست را ارائه می دهد.

پیش نیازها

برای این پست، پیش نیازهای زیر مورد نیاز است:

همچنین باید میزان را افزایش دهید سهمیه خدمات برای دسترسی به حداقل سه نمونه از نمونه های ml.g4dn.xlarge در SageMaker. نوع نمونه ml.g4dn.xlarge نمونه GPU مقرون به صرفه ای است که به شما اجازه می دهد PyTorch را به صورت بومی اجرا کنید. برای افزایش سهمیه خدمات مراحل زیر را انجام دهید:

در کنسول، به سرویس Quotas بروید.
برای مدیریت سهمیه ها، انتخاب کنید آمازون SageMaker، پس از آن را انتخاب کنید مشاهده سهمیه ها.

«ml-g4dn.xlarge for training job use» را جستجو کنید و مورد سهمیه را انتخاب کنید.
را انتخاب کنید درخواست افزایش در سطح حساب.

برای افزایش مقدار سهمیه، مقدار 5 یا بالاتر را وارد کنید.
را انتخاب کنید درخواست.

بسته به مجوزهای حساب، تأیید سهمیه درخواستی ممکن است مدتی طول بکشد.

SageMaker Studio را از کنسول SageMaker باز کنید.

را انتخاب کنید ترمینال سیستم زیر ابزارها و فایل ها.

دستور زیر را برای کلون کردن اجرا کنید GitHub repo به نمونه SageMaker Studio:
```
git clone https://github.com/aws/amazon-sagemaker-examples.git
```
هدایت به amazon-sagemaker-examples/hyperparameter_tuning/neural_architecture_search_llm.
باز کردن فایل nas_for_llm_with_amt.ipynb.
محیط را با یک تنظیم کنید ml.g4dn.xlarge نمونه و انتخاب کنید انتخاب کنید.

مدل BERT از پیش آموزش دیده را تنظیم کنید

در این بخش، مجموعه داده Recognizing Textual Entailment را از مجموعه داده وارد می کنیم و مجموعه داده را به مجموعه های آموزشی و اعتبار سنجی تقسیم می کنیم. این مجموعه داده از جفت جمله تشکیل شده است. وظیفه BERT PLM این است که با توجه به دو قطعه متن تشخیص دهد که آیا می توان معنای یک قطعه متن را از قطعه دیگر استنباط کرد یا خیر. در مثال زیر می توان معنای عبارت اول را از عبارت دوم استنباط کرد:

Phrase 1: A man with a beard, wearing a red shirt with gray sleeves and work gloves, pulling on a rope.
Phrase 2: A bearded man pulls a rope

ما مجموعه داده مستلزم شناسایی متنی را از قسمت بارگیری می کنیم GLUE مجموعه محک از طریق کتابخانه مجموعه داده از Hugging Face در اسکریپت آموزشی ما (./training.py). ما مجموعه داده آموزشی اصلی را از GLUE به یک مجموعه آموزشی و اعتبار سنجی تقسیم کردیم. در رویکرد خود، مدل BERT پایه را با استفاده از مجموعه داده آموزشی تنظیم می‌کنیم، سپس یک جستجوی چند هدفه را برای شناسایی مجموعه‌ای از شبکه‌های فرعی انجام می‌دهیم که به طور بهینه بین معیارهای هدف تعادل برقرار می‌کنند. ما از مجموعه داده آموزشی منحصراً برای تنظیم دقیق مدل BERT استفاده می کنیم. با این حال، ما از داده‌های اعتبارسنجی برای جستجوی چند هدفه با اندازه‌گیری دقت در مجموعه داده اعتبارسنجی نگهدارنده استفاده می‌کنیم.

BERT PLM را با استفاده از یک مجموعه داده خاص دامنه تنظیم کنید

موارد استفاده معمول برای یک مدل BERT خام شامل پیش‌بینی جمله بعدی یا مدل‌سازی زبان پوشانده است. برای استفاده از مدل BERT پایه برای کارهای پایین دستی مانند شناسایی مستلزم متنی، باید مدل را با استفاده از یک مجموعه داده خاص دامنه، بیشتر تنظیم کنیم. می‌توانید از مدل BERT تنظیم‌شده برای کارهایی مانند طبقه‌بندی توالی، پاسخ‌گویی به سؤال و طبقه‌بندی نشانه‌ها استفاده کنید. با این حال، برای اهداف این نسخه ی نمایشی، ما از مدل دقیق تنظیم شده برای طبقه بندی باینری استفاده می کنیم. ما مدل BERT از پیش آموزش دیده را با مجموعه داده آموزشی که قبلاً آماده کرده بودیم، با استفاده از فراپارامترهای زیر تنظیم می کنیم:

hyperparameters["per_device_train_batch_size"] = 8
hyperparameters["per_device_eval_batch_size"] = 8
hyperparameters["learning_rate"] = 2e-05
hyperparameters["num_train_epochs"] = 5
hyperparameters["save_strategy"] = "epoch"
hyperparameters[
"is_regression"
] = False  # set this to True if your dataset is a regression dataset, for example STSB

چک پوینت آموزش مدل را در یک ذخیره می کنیم سرویس ذخیره سازی ساده آمازون (Amazon S3) سطل، به طوری که مدل می تواند در طول جستجوی چند هدفه مبتنی بر NAS بارگذاری شود. قبل از آموزش مدل، معیارهایی مانند دوره، از دست دادن آموزش، تعداد پارامترها و خطای اعتبارسنجی را تعریف می کنیم:

session = Session()
s3_bucket = session.default_bucket()
s3_bucket_prefix = "nas_amt/model_checkpoint"
s3_path = f"s3://{s3_bucket}/{s3_bucket_prefix}"

metric_definitions = [
    {"Name": "epoch", "Regex": "epoch: ([0-9.]+)"},
    {"Name": "training-loss", "Regex": "training loss: ([0-9.]+)"},
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

sm_args = dict(
    entry_point="training.py",
    source_dir=os.path.abspath(""),
    instance_type="ml.g4dn.xlarge",
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    checkpoint_local_path="/opt/ml/checkpoints",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=s3_path,
    metric_definitions=metric_definitions,
)
est = PyTorch(**sm_args)
est.fit()

پس از شروع فرآیند تنظیم دقیق، کار آموزشی حدود 15 دقیقه طول می کشد تا تکمیل شود.

برای انتخاب زیرشبکه ها و تجسم نتایج، جستجوی چند هدفه انجام دهید

در مرحله بعد، با نمونه‌برداری از شبکه‌های فرعی تصادفی با استفاده از SageMaker AMT، یک جستجوی چندهدفه بر روی مدل BERT پایه تنظیم‌شده دقیق انجام می‌دهیم. برای دسترسی به یک شبکه فرعی در سوپرشبکه (مدل BERT تنظیم شده)، تمام اجزای PLM را که بخشی از شبکه فرعی نیستند، پنهان می کنیم. پوشاندن یک ابر شبکه برای یافتن زیرشبکه‌ها در یک PLM تکنیکی است که برای جداسازی و شناسایی الگوهای رفتار مدل استفاده می‌شود. توجه داشته باشید که ترانسفورماتور Hugging Face به اندازه پنهان نیاز دارد تا مضربی از تعداد سرها باشد. اندازه پنهان در یک ترانسفورماتور PLM اندازه فضای برداری حالت پنهان را کنترل می کند، که بر توانایی مدل برای یادگیری نمایش ها و الگوهای پیچیده در داده ها تأثیر می گذارد. در BERT PLM، بردار حالت پنهان یک اندازه ثابت است (768). ما نمی توانیم اندازه پنهان را تغییر دهیم، بنابراین تعداد هدها باید در [1، 3، 6، 12] باشد.

برخلاف بهینه‌سازی تک هدفه، در تنظیمات چند هدفه، ما معمولاً یک راه‌حل واحد نداریم که به طور همزمان همه اهداف را بهینه کند. در عوض، هدف ما جمع‌آوری مجموعه‌ای از راه‌حل‌ها است که بر تمام راه‌حل‌های دیگر در حداقل یک هدف (مانند خطای اعتبارسنجی) غالب است. اکنون می‌توانیم جستجوی چند هدفه را از طریق AMT با تنظیم معیارهایی که می‌خواهیم کاهش دهیم (خطای اعتبارسنجی و تعداد پارامترها) شروع کنیم. زیرشبکه های تصادفی با پارامتر تعریف می شوند max_jobs و تعداد کارهای همزمان با پارامتر تعریف می شود max_parallel_jobs. کد بارگیری مدل بازرسی و ارزیابی شبکه فرعی در موجود است evaluate_subnetwork.py اسکریپت

# Maximum number of sub-networks we will evaluate
max_jobs = 100
max_parallel_jobs = 5

# Entry point script to load the super-network and evaluate a sub-network
entry_point = "evaluate_subnetwork.py"

# Command line arguments for the entry point script
hyperparameters = {"model_name_or_path": model_type, "output_dir": "./tmp", "task_name": "rte"}

# Define the metric we want to minimize
metric_definitions = [
    {"Name": "num-parameters", "Regex": "number of parameters: ([0-9.]+)"},
    {"Name": "validation-error", "Regex": "validation error: ([0-9.]+)"},
]

# Define HuggingFace estimator
estimator = HuggingFace(
    entry_point=entry_point,
    source_dir="./",
    instance_type="ml.g4dn.xlarge",  # instance types for the SageMaker training jobs
    instance_count=1,
    py_version="py39",
    framework_version="1.13",
    pytorch_version="1.13",
    transformers_version="4.26",
    max_run=3600 * 72,
    role=get_execution_role(),
    volume_size=125,
    model_uri=s3_path,
    hyperparameters=hyperparameters,
)

current_time = datetime.now().strftime("%m-%d-%Y-%H-%M-%S")
tuning_job_name = f"nas-search-{current_time}"

# Search space to define sub-networks
hyperparameter_ranges = {
    "num_layers": IntegerParameter(0, 12),
    # To meet HuggingFace constraints, we can only set the number of head to these values
    "num_heads": CategoricalParameter([1, 3, 6, 12]),
    "num_units": IntegerParameter(0, 3072),
}

# Define AMT Tuner object
my_tuner = HyperparameterTuner(
    estimator=estimator,
    objective_metric_name="validation-error",
    hyperparameter_ranges=hyperparameter_ranges,
    metric_definitions=metric_definitions,
    max_jobs=max_jobs,
    strategy="Random",
    random_seed=seed,
    objective_type="Minimize",
    max_parallel_jobs=max_parallel_jobs,
)

# Start hyperparameter tuning job
my_tuner.fit(job_name=tuning_job_name)

کار تنظیم AMT تقریباً 2 ساعت و 20 دقیقه طول می کشد. پس از اجرای موفقیت آمیز کار تنظیم AMT، تاریخچه کار را تجزیه می کنیم و پیکربندی های زیرشبکه مانند تعداد هدها، تعداد لایه ها، تعداد واحدها و معیارهای مربوطه مانند خطای اعتبارسنجی و تعداد پارامترها را جمع آوری می کنیم. اسکرین شات زیر خلاصه ای از کار موفق تیونر AMT را نشان می دهد.

در مرحله بعد، نتایج را با استفاده از یک مجموعه پارتو (همچنین به عنوان مرز پارتو یا مجموعه بهینه پارتو شناخته می‌شود) تجسم می‌کنیم که به ما کمک می‌کند مجموعه‌های بهینه زیرشبکه‌هایی را که بر همه زیرشبکه‌های دیگر در متریک هدف (خطای اعتبارسنجی) تسلط دارند شناسایی کنیم:

history = my_tuner.analytics().dataframe()
data = []
configs = []
for i, t in enumerate(my_tuner.analytics().training_job_summaries()):
    jn = t["TrainingJobName"]
    df = sagemaker.analytics.TrainingJobAnalytics(jn).dataframe()

    row = history[history["TrainingJobName"] == jn]
    config = {
        "num-heads": int(row["num_heads"].iloc[0].strip('"')),
        "num-layers": int(row["num_layers"]),
        "num-units": int(row["num_units"]),
    }
    configs.append(config)

    p = []
    for j, metric in enumerate(metric_definitions):
        metric_name = metric["Name"]
        if "metric_name" not in df.keys():
            continue
        y = float(df[df["metric_name"] == metric_name]["value"])
        p.append(y)
    if len(p) > 0:
        data.append(p)

data = np.array(data)

ابتدا داده ها را از کار تنظیم AMT جمع آوری می کنیم. سپس با استفاده از مجموعه پارتو رسم می کنیم matplotlob.pyplot با تعداد پارامترها در محور x و خطای اعتبارسنجی در محور y. این بدان معناست که وقتی از یک زیرشبکه از مجموعه پارتو به شبکه دیگر منتقل می‌شویم، باید عملکرد یا اندازه مدل را قربانی کنیم، اما دیگری را بهبود ببخشیم. در نهایت، مجموعه پارتو این قابلیت را برای ما فراهم می کند تا بتوانیم زیرشبکه ای را انتخاب کنیم که به بهترین وجه با ترجیحات ما مطابقت دارد. ما می توانیم تصمیم بگیریم که چقدر می خواهیم اندازه شبکه خود را کاهش دهیم و چقدر عملکرد را مایل به قربانی کردن هستیم.

import matplotlib.pyplot as plt
from multi_objective import get_pareto_optimal

# get results of the un-pruned network
df = sagemaker.analytics.TrainingJobAnalytics(est.jobs[0].name).dataframe()
validation_error_unpruned_network = float(df[df["metric_name"] == "validation-error"].value.min())
params_unpruned_network = int(df[df["metric_name"] == "num-parameters"].value.min())
plt.scatter(
params_unpruned_network,
validation_error_unpruned_network,
marker="o",
s=80,
facecolors="none",
edgecolors="C3",
linewidth=2,
label="un-pruned super-network",
)
# get Pareto optimal points
idx = get_pareto_optimal(data)
x = data[idx, 0]
y = data[idx, 1]
plt.scatter(
x,
y,
marker="o",
s=80,
facecolors="none",
edgecolors="C0",
linewidth=2,
label="Pareto front (sub-networks)",
)
plt.xlabel("number of parameters")
plt.ylabel("validation error")
plt.legend()
plt.xscale("log")
plt.grid(linewidth="1", alpha=0.4, which="both")

با استفاده از SageMaker، مدل BERT بهینه‌سازی شده و مدل زیرشبکه بهینه‌شده NAS را اجرا کنید.

در مرحله بعد، ما بزرگترین مدل را در مجموعه پارتو خود مستقر می کنیم که منجر به کوچکترین انحطاط عملکرد به یک نقطه پایانی SageMaker. بهترین مدل مدلی است که یک مبادله بهینه بین خطای اعتبارسنجی و تعداد پارامترهای مورد استفاده ما فراهم می کند.

# Let's take the largest model in the Pareto set
indicies = np.arange(len(configs))[idx]
pareto_optimal_sub_networks = [configs[i] for i in indicies]
config_to_deploy = pareto_optimal_sub_networks[-1]  

from sagemaker.huggingface.model import HuggingFaceModel

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
    model_data=s3_path + "/model.tar.gz",
    role=get_execution_role(),
    transformers_version="4.26",
    pytorch_version="1.13",
    py_version="py39",
    entry_point="inference.py",
    source_dir="./",
    env={"SM_HPS": json.dumps(config_to_deploy)},
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(initial_instance_count=1, instance_type="ml.g4dn.xlarge")

مقایسه مدل

ما یک مدل BERT پایه از پیش آموزش‌دیده گرفتیم، آن را با استفاده از یک مجموعه داده خاص دامنه تنظیم کردیم، یک جستجوی NAS برای شناسایی زیرشبکه‌های غالب بر اساس معیارهای هدف انجام دادیم، و مدل هرس شده را در نقطه پایانی SageMaker به کار بردیم. علاوه بر این، مدل BERT پایه از پیش آموزش دیده را انتخاب کردیم و مدل پایه را در نقطه پایانی دوم SageMaker مستقر کردیم. بعد دویدیم تست بار با استفاده از Locust در هر دو نقطه پایانی استنتاج و عملکرد را از نظر زمان پاسخ ارزیابی کرد.

ابتدا کتابخانه های Locust و Boto3 لازم را وارد می کنیم. سپس یک فراداده درخواست می سازیم و زمان شروع را برای استفاده برای آزمایش بار ثبت می کنیم. سپس payload از طریق BotoClient به API فراخوانی نقطه پایانی SageMaker ارسال می‌شود تا درخواست‌های واقعی کاربر را شبیه‌سازی کند. ما از Locust برای ایجاد چندین کاربر مجازی برای ارسال درخواست‌ها به صورت موازی و اندازه‌گیری عملکرد نقطه پایانی تحت بار استفاده می‌کنیم. تست ها به ترتیب با افزایش تعداد کاربران برای هر یک از دو نقطه پایانی اجرا می شوند. پس از اتمام تست‌ها، Locust یک فایل CSV آمار درخواست را برای هر یک از مدل‌های مستقر شده خروجی می‌دهد.

def send(self):
        request_meta = {
            "request_type": "InvokeEndpoint",
            "name": "SageMaker",
            "start_time": time.time(),
            "response_length": 0,
            "response": None,
            "context": {},
            "exception": None,
        }
        start_perf_counter = time.perf_counter()

        try:
            response = self.sagemaker_client.invoke_endpoint(
                EndpointName=self.endpoint_name,
                Body=self.payload,
                ContentType=self.content_type,
            )
            logging.info(response["Body"].read())
        except Exception as e:
            request_meta["exception"] = e

        request_meta["response_time"] = (
            time.perf_counter() - start_perf_counter
        ) * 1000

        events.request.fire(**request_meta)

سپس، نمودارهای زمان پاسخ را از فایل‌های CSV که پس از اجرای آزمایش‌ها با Locust دانلود شده‌اند، تولید می‌کنیم. هدف از ترسیم زمان پاسخ در مقابل تعداد کاربران، تجزیه و تحلیل نتایج آزمایش بار با تجسم تأثیر زمان پاسخ نقاط پایانی مدل است. در نمودار زیر می بینیم که نقطه پایانی مدل هرس شده توسط NAS در مقایسه با نقطه پایانی مدل پایه BERT به زمان پاسخ کمتری می رسد.

در نمودار دوم، که پسوند نمودار اول است، مشاهده می‌کنیم که پس از حدود 70 کاربر، SageMaker شروع به دریچه‌گیری نقطه پایانی مدل BERT پایه می‌کند و یک استثنا ایجاد می‌کند. با این حال، برای نقطه پایانی مدل هرس شده توسط NAS، فشار بین 90 تا 100 کاربر و با زمان پاسخ کمتر اتفاق می‌افتد.

از دو نمودار مشاهده می کنیم که مدل هرس شده زمان پاسخگویی سریع تری دارد و در مقایسه با مدل هرس نشده مقیاس بهتری دارد. همانطور که ما تعداد نقاط پایانی استنتاج را مقیاس بندی می کنیم، همانطور که در مورد کاربرانی که تعداد زیادی نقطه پایانی استنتاج را برای برنامه های کاربردی PLM خود استفاده می کنند، مزایای هزینه و بهبود عملکرد بسیار قابل توجه می شود.

پاک کردن

برای حذف نقاط پایانی SageMaker برای مدل BERT پایه تنظیم شده و مدل هرس شده NAS، مراحل زیر را انجام دهید:

در کنسول SageMaker، را انتخاب کنید استنباط و نقاط پایان در صفحه ناوبری
نقطه پایانی را انتخاب کرده و آن را حذف کنید.

از طرف دیگر، از نوت بوک SageMaker Studio، دستورات زیر را با ارائه نام نقطه پایانی اجرا کنید:

predictor.delete_model()
predictor.delete_endpoint()

نتیجه

در این پست، نحوه استفاده از NAS برای هرس مدل BERT تنظیم شده را مورد بحث قرار دادیم. ما ابتدا یک مدل BERT پایه را با استفاده از داده های دامنه خاص آموزش دادیم و آن را در یک نقطه پایانی SageMaker مستقر کردیم. ما یک جستجوی چند هدفه را بر روی مدل BERT پایه تنظیم شده با استفاده از SageMaker AMT برای یک کار هدف انجام دادیم. ما جلوی پارتو را تجسم کردیم و مدل BERT بهینه پارتو را انتخاب کردیم و مدل را در نقطه پایانی دوم SageMaker مستقر کردیم. ما آزمایش بارگذاری را با استفاده از Locust انجام دادیم تا کاربرانی را که هر دو نقطه پایانی را پرس و جو می‌کردند، شبیه‌سازی کنیم و زمان‌های پاسخ را در یک فایل CSV اندازه‌گیری و ثبت کردیم. ما زمان پاسخ را در مقابل تعداد کاربران برای هر دو مدل ترسیم کردیم.

ما مشاهده کردیم که مدل BERT هرس شده به طور قابل توجهی در هر دو زمان پاسخ و آستانه دریچه گاز عملکرد بهتری داشت. ما به این نتیجه رسیدیم که مدل هرس شده با NAS نسبت به افزایش بار در نقطه پایانی انعطاف‌پذیرتر است و زمان پاسخ کمتری را حفظ می‌کند، حتی زمانی که کاربران بیشتری روی سیستم در مقایسه با مدل BERT پایه فشار می‌آورند. می‌توانید تکنیک NAS را که در این پست توضیح داده شده است، برای هر مدل زبان بزرگی به کار ببرید تا یک مدل هرس شده را پیدا کنید که می‌تواند کار هدف را با زمان پاسخ‌دهی بسیار کمتری انجام دهد. می‌توانید با استفاده از تأخیر به‌عنوان پارامتر علاوه بر از دست دادن اعتبارسنجی، رویکرد را بیشتر بهینه کنید.

اگرچه ما در این پست از NAS استفاده می کنیم، کوانتیزاسیون یکی دیگر از روش های رایج مورد استفاده برای بهینه سازی و فشرده سازی مدل های PLM است. کوانتیزه کردن دقت وزن‌ها و فعال‌سازی‌ها را در یک شبکه آموزش‌دیده از نقطه شناور ۳۲ بیتی به عرض بیت‌های پایین‌تر مانند اعداد صحیح ۸ بیتی یا ۱۶ بیتی کاهش می‌دهد که منجر به یک مدل فشرده می‌شود که استنتاج سریع‌تری ایجاد می‌کند. کوانتیزاسیون تعداد پارامترها را کاهش نمی دهد. در عوض دقت پارامترهای موجود را برای بدست آوردن یک مدل فشرده کاهش می دهد. هرس NAS شبکه های اضافی را در یک PLM حذف می کند، که یک مدل پراکنده با پارامترهای کمتر ایجاد می کند. به طور معمول، هرس NAS و کوانتیزاسیون با هم برای فشرده سازی PLM های بزرگ برای حفظ دقت مدل، کاهش تلفات اعتبار سنجی و در عین حال بهبود عملکرد و کاهش اندازه مدل استفاده می شود. سایر تکنیک های رایج برای کاهش اندازه PLM ها عبارتند از تقطیر دانش, فاکتورسازی ماتریسیو آبشارهای تقطیر.

رویکرد پیشنهادی در وبلاگ پست برای تیم‌هایی مناسب است که از SageMaker برای آموزش و تنظیم دقیق مدل‌ها با استفاده از داده‌های دامنه خاص و استقرار نقاط پایانی برای تولید استنتاج استفاده می‌کنند. اگر به دنبال یک سرویس کاملاً مدیریت شده هستید که انتخابی از مدل‌های پایه با کارایی بالا را ارائه می‌دهد که برای ساخت برنامه‌های هوش مصنوعی مولد نیاز است، استفاده از آن را در نظر بگیرید. بستر آمازون. اگر به دنبال مدل های از پیش آموزش دیده و منبع باز برای طیف گسترده ای از موارد استفاده تجاری هستید و می خواهید به الگوهای راه حل و نمونه نوت بوک ها دسترسی داشته باشید، استفاده از آن را در نظر بگیرید. Amazon SageMaker JumpStart. یک نسخه از پیش آموزش‌دیده‌شده از مدل محفظه پایه Hugging Face BERT که در این پست استفاده کردیم نیز از SageMaker JumpStart موجود است.

درباره نویسنده

آپاراجیتان وایدیاناتان یک معمار اصلی راه حل های سازمانی در AWS است. او یک معمار ابر با 24+ سال تجربه در طراحی و توسعه سیستم های نرم افزاری سازمانی، مقیاس بزرگ و توزیع شده است. او در زمینه هوش مصنوعی و مهندسی داده های یادگیری ماشین تخصص دارد. او یک دونده ماراتن مشتاق است و سرگرمی هایش شامل پیاده روی، دوچرخه سواری و گذراندن وقت با همسر و دو پسرش است.