تنظیم دقیق مدل بزرگ BERT برای یک کار پرسش و پاسخ با استفاده از ترانسفورماتورهای صورت در آغوش گرفته در Amazon SageMaker

بازنشر افلاطون

دنبال: 0

از آموزش مدل های جدید گرفته تا استفاده از آنها در تولید، آمازون SageMaker کامل ترین مجموعه ابزارها را برای استارتاپ ها و شرکت ها ارائه می دهد تا از قدرت یادگیری ماشینی (ML) و یادگیری عمیق استفاده کنند.

Hugging Face با کتابخانه منبع باز Transformers و پلت فرم ML خود، یادگیری انتقال و جدیدترین مدل های ML را در دسترس جامعه جهانی هوش مصنوعی قرار می دهد و زمان مورد نیاز دانشمندان داده و مهندسان ML در شرکت های سراسر جهان را کاهش می دهد تا از هر علمی جدید استفاده کنند. پیشرفت

استفاده از Transformers در وظایف یا دامنه‌های جدید NLP نیازمند تنظیم دقیق مدل‌های زبان بزرگ است، تکنیکی که از دانش انباشته شده مدل‌های از پیش آموزش‌دیده استفاده می‌کند تا آنها را با یک کار جدید یا نوع خاصی از اسناد در یک فرآیند آموزشی اضافی و کارآمد تطبیق دهد.

تنظیم دقیق مدل برای تولید پیش‌بینی‌های دقیق برای مشکل تجاری موجود، نیازمند آموزش مدل‌های بزرگ ترانسفورماتور است، به‌عنوان مثال BERT، BART، RoBERTa، T5، که انجام آن‌ها به روشی مقیاس‌پذیر می‌تواند چالش برانگیز باشد.

Hugging Face برای ارائه با SageMaker همکاری نزدیکی داشته است ظروف یادگیری عمیق آماده برای استفاده (DLC) که آموزش و استقرار آخرین مدل های ترانسفورماتور را آسان تر و سریع تر از همیشه می کند. از آنجایی که ویژگی‌هایی مانند SageMaker Data Parallel (SMDP)، SageMaker Model Parallel (SMMP)، حالت لوله S3، در کانتینر ادغام شده‌اند، استفاده از این ویژگی‌ها زمان شرکت‌ها برای ایجاد راه‌حل‌های ML مبتنی بر ترانسفورماتور مانند پاسخ‌گویی به سؤال، تولید را به شدت کاهش می‌دهد. متن و تصاویر، بهینه سازی نتایج جستجو، و بهبود اتوماسیون پشتیبانی مشتری، رابط های مکالمه، جستجوی معنایی، تجزیه و تحلیل اسناد، و بسیاری از برنامه های کاربردی دیگر.

در این پست، ما بر ادغام عمیق کتابخانه‌های توزیع‌شده SageMaker با Hugging Face تمرکز می‌کنیم، که دانشمندان داده را قادر می‌سازد تا آموزش و تنظیم دقیق مدل‌های Transformers را از روز به ساعت، همه در SageMaker، سرعت بخشند.

مروری بر آموزش های توزیع شده

شاغلین ML و دانشمندان داده هنگام آموزش مدل ها با دو چالش مقیاس بندی مواجه می شوند: مقیاس بندی اندازه مدل (تعداد پارامترها و لایه ها) و مقیاس بندی داده های آموزشی. مقیاس‌بندی اندازه مدل یا داده‌های آموزشی می‌تواند منجر به دقت بهتر شود، اما در یادگیری عمیق مواردی وجود دارد که مقدار حافظه روی شتاب‌دهنده (CPU یا GPU) ترکیب اندازه داده‌های آموزشی و اندازه را محدود می‌کند. مدل. به عنوان مثال، هنگام آموزش یک مدل زبان بزرگ، اندازه دسته اغلب به تعداد کمی از نمونه ها محدود می شود، که می تواند منجر به مدلی با دقت کمتر شود.

آموزش توزیع شده می تواند حجم کار را برای آموزش مدل در بین چندین پردازنده تقسیم کند کارگران. این کارگران برای سرعت بخشیدن به آموزش مدل به موازات کار می کنند.

بر اساس آنچه می خواهیم مقیاس کنیم (مدل یا داده) دو رویکرد برای آموزش توزیع شده وجود دارد: داده موازی و مدل موازی.

موازی داده ها رایج ترین رویکرد برای آموزش توزیع شده است. موازی سازی داده ها مستلزم ایجاد یک کپی از معماری مدل و وزن ها در شتاب دهنده های مختلف است. سپس، به جای عبور از کل مجموعه آموزشی به یک شتاب دهنده، می توانیم مجموعه آموزشی را در شتاب دهنده های مختلف تقسیم بندی کنیم و مجموعه آموزشی را سریعتر پشت سر بگذاریم. اگرچه این مرحله شتاب‌دهنده‌ها را اضافه می‌کند که باید اطلاعات گرادیان خود را به یک سرور پارامتر برگردانند، این زمان با افزایش سرعت تکرار بیش از کسری از کل مجموعه داده در هر شتاب‌دهنده جبران می‌شود. به همین دلیل، موازی سازی داده ها می تواند به طور قابل توجهی به کاهش زمان آموزش کمک کند. به عنوان مثال، آموزش یک مدل بدون موازی سازی 4 ساعت طول می کشد. استفاده از آموزش توزیع شده می تواند آن را به 24 دقیقه کاهش دهد. آموزش توزیع شده SageMaker همچنین تکنیک های پیشرفته را در به روز رسانی گرادیان پیاده سازی می کند.

یک رویکرد موازی مدل برای مدل‌های بزرگ بسیار بزرگ برای قرار گرفتن روی یک شتاب‌دهنده (GPU) استفاده می‌شود. این رویکرد یک استراتژی موازی سازی را اجرا می کند که در آن معماری مدل به قطعات تقسیم شده و بر روی شتاب دهنده های مختلف قرار می گیرد. پیکربندی هر یک از این خرده ها به معماری شبکه عصبی وابسته است و معمولاً چندین لایه را شامل می شود. ارتباط بین شتاب‌دهنده‌ها هر بار که داده‌های آموزشی از یکی از خرده‌ها به دیگری منتقل می‌شوند، اتفاق می‌افتد.

به طور خلاصه، باید از موازی سازی داده های آموزشی توزیع شده برای کارهایی که زمان زیادی دارند به دلیل مجموعه داده های بزرگ یا زمانی که می خواهید آزمایش های آموزشی خود را تسریع کنید، استفاده کنید. وقتی مدل شما نمی تواند روی یک شتاب دهنده قرار بگیرد، باید از موازی سازی مدل استفاده کنید.

پیش نیازها

برای انجام آموزش توزیعی مدل‌های ترانسفورماتور صورت بغل کردن در SageMaker، باید پیش نیازهای زیر را تکمیل کنید:

اجرای آموزش های توزیعی

کتابخانه Hugging Face Transformers یک API Trainer ارائه می‌کند که برای آموزش یا تنظیم دقیق مدل‌هایی که کتابخانه ارائه می‌کند بهینه شده است. شما همچنین می توانید آن را بر روی مدل های خود استفاده کنید، اگر آنها مانند مدل های ترانسفورماتور کار می کنند. دیدن مربی برای جزئیات بیشتر این API در ما استفاده می شود نمونه اسکریپت ها، که نشان می دهد چگونه داده ها را برای کارهای مختلف NLP از قبل پردازش کنید، که می توانید آنها را به عنوان مدل برای نوشتن یک اسکریپت برای حل مشکل سفارشی خود انتخاب کنید. وعده Trainer API این است که این اسکریپت در هر تنظیمات توزیع شده، از جمله SageMaker، خارج از جعبه کار کند.

Trainer API همه چیز مورد نیاز برای آموزش را می گیرد. این شامل مجموعه داده های شما، مدل شما (یا تابعی است که مدل شما را برمی گرداند)، a compute_metrics تابعی که معیارهایی را که می‌خواهید ردیابی کنید از آرایه‌های پیش‌بینی‌ها و برچسب‌ها، بهینه‌ساز و زمان‌بندی نرخ یادگیری شما (پیش‌فرض‌های خوبی ارائه شده‌اند) و همچنین تمام فراپارامترهایی را که می‌توانید برای آموزش خود تنظیم کنید در یک کلاس داده به نام گروه‌بندی شده برمی‌گرداند. TrainingArguments. با همه اینها، سه روش - آموزش، ارزیابی و پیش بینی - برای آموزش مدل شما، دریافت نتایج متریک در هر مجموعه داده یا دریافت پیش بینی در هر مجموعه داده ارائه می دهد. برای کسب اطلاعات بیشتر در مورد شی Trainer، مراجعه کنید تنظیم دقیق یک مدل با Trainer API و ویدیو API ترینر، که شما را با یک مثال ساده راهنمایی می کند.

در پشت صحنه، Trainer API با تجزیه و تحلیل محیطی که اسکریپت خود را در آن راه اندازی می کنید، شروع می کند. TrainingArguments. به عنوان مثال، اگر شما آموزش خود را با SageMaker راه اندازی کرده اید، به این نگاه می کند SM_FRAMEWORK_PARAMS متغیر در محیط برای تشخیص اینکه آیا SageMaker موازی سازی داده ها را فعال کرده اید یا موازی سازی مدل. سپس متغیرهای مربوطه (مانند رتبه فرآیند یا اندازه جهانی) را قبل از انجام مراحل اولیه اولیه (مانند) از محیط دریافت می کند. smdistributed.dataparallel.torch.distributed.init_process_group()).

ترینر شامل کل حلقه آموزشی است، بنابراین می تواند مراحل لازم را برای اطمینان از این کار تنظیم کند smdistributed.dataparallel Backend در مواقع لزوم بدون نیاز به تغییر یک خط کد در اسکریپت استفاده می شود. هنوز هم می تواند (البته بسیار کندتر) روی دستگاه محلی شما برای اشکال زدایی اجرا شود. به اشتراک گذاری مجموعه داده شما رسیدگی می کند به طوری که هر فرآیند نمونه های مختلف را به طور خودکار مشاهده می کند، با تغییر در هر دوره، همگام سازی گرادیان های شما قبل از مرحله بهینه سازی، آموزش دقیق ترکیبی اگر آن را فعال کرده باشید، انباشت گرادیان اگر نمی توانید اندازه دسته بزرگی را تنظیم کنید. پردازنده‌های گرافیکی شما و بسیاری بهینه‌سازی‌های دیگر.

اگر موازی سازی مدل را فعال کرده باشید، مطمئن می شود که فرآیندهایی که باید داده های مشابهی را ببینند (در صورت وجود dp_rank یکسان است) دسته های یکسانی را دریافت می کنند، و این فرآیندها با متفاوت است dp_rank نمونه های مشابه را نبینید، دوباره با یک تغییر در هر دوره. این اطمینان حاصل می‌کند که فرهنگ لغت‌های حالت مدل یا بهینه‌سازها به درستی در هنگام چک‌پوینت همگام‌سازی شده‌اند، و دوباره همه بهینه‌سازی‌ها مانند دقت ترکیبی و انباشتگی گرادیان را کنترل می‌کند.

هنگام استفاده از روش‌های ارزیابی و پیش‌بینی، مربی یک ارزیابی توزیع‌شده را انجام می‌دهد تا از همه پردازنده‌های گرافیکی شما استفاده کند. به درستی تقسیم داده های شما را برای هر فرآیند انجام می دهد (فرآیند همان dp_rank اگر موازی سازی مدل فعال باشد) و اطمینان حاصل می کند که پیش بینی ها به درستی به همان ترتیب مجموعه داده ای که استفاده می کنید قبل از ارسال به compute_metrics تابع یا فقط بازگشته است. استفاده از Trainer API اجباری نیست. کاربران همچنان می توانند از Keras یا PyTorch در Hugging Face استفاده کنند. با این حال، Trainer API می تواند یک لایه انتزاعی مفید ارائه دهد.

یک مدل را با استفاده از برآوردگرهای صورت در آغوش گرفته SageMaker آموزش دهید

An Estimator یک رابط سطح بالا برای آموزش SageMaker است و وظایف آموزش و استقرار SageMaker را انجام می دهد. آموزش اسکریپت شما هنگام تماس فراخوانی می شود fit در HuggingFace برآوردگر. در برآوردگر، شما تعیین می کنید که از کدام اسکریپت تنظیم دقیق استفاده کنید entry_point، که instance_type برای استفاده، و کدام هایپرپارامترها منتقل می شوند. برای اطلاعات بیشتر در مورد HuggingFace پارامترها را ببینید تخمینگر صورت در آغوش گرفته.

آموزش توزیع شده: داده های موازی

در این مثال، ما از DLC های جدید Hugging Face و SageMaker SDK برای آموزش یک مدل ترانسفورماتور Seq2Seq توزیع شده در مورد پرسش و پاسخ با استفاده از کتابخانه های Transformers و مجموعه داده ها استفاده می کنیم. را برت-بزرگ-بدون حروف-کلمه-پوشاندن مدل به خوبی تنظیم شده است تیم ملی مجموعه داده

نمونه کد زیر مراحل ایجاد a را به شما نشان می دهد HuggingFace برآوردگر برای آموزش توزیع شده با موازی سازی داده ها.

اسکریپت Hugging Face Transformers را انتخاب کنید:

# git configuration to download our fine-tuning script
git_config = {'repo': 'https://github.com/huggingface/transformers.git','branch': 'v4.6.1'}

هنگامی که شما ایجاد کنید HuggingFace برآوردگر، می‌توانید یک اسکریپت آموزشی را که در یک مخزن GitHub ذخیره می‌شود، به‌عنوان نقطه ورودی برای تخمین‌گر تعیین کنید، بنابراین نیازی به دانلود اسکریپت‌ها به صورت محلی ندارید. شما می توانید استفاده کنید git_config برای اجرای نمونه‌های اسکریپت Hugging Face Transformers و شاخه سمت راست، در صورت وجود transformers_version نیاز به پیکربندی دارد. مثلا اگر استفاده می کنید transformers_version 4.6.1، باید از ' استفاده کنیدbranch':'v4.6.1".

پیکربندی هایپرپارامترهای آموزشی که به کار آموزشی منتقل می شوند:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name_or_path': 'bert-large-uncased-whole-word-masking', 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4, 'num_train_epochs': 2, 'max_seq_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
}

به عنوان یک هایپرپارامتر، می توانیم هر کدام را تعریف کنیم Seq2SeqTrainingArguments و مواردی که در اسکریپت آموزشی تعریف شده است.

پارامترهای توزیع را در HuggingFace برآوردگر:

# configuration for running training on smdistributed Data Parallel
distribution = {'smdistributed':{'dataparallel':{ 'enabled': True }}}

شما می توانید با استفاده از کتابخانه موازی داده SageMaker خارج از جعبه برای آموزش توزیع شده. ما قابلیت موازی سازی داده ها را مستقیماً به Trainer اضافه کردیم. برای فعال کردن موازی سازی داده ها، می توانید به سادگی یک پارامتر را به خود اضافه کنید HuggingFace برآوردگر به کد مبتنی بر Trainer شما اجازه می دهد از آن به طور خودکار استفاده کند.

ایجاد یک HuggingFace برآوردگر شامل پارامترهای تعریف شده در مراحل قبلی و شروع آموزش:

from sagemaker.huggingface import HuggingFace
# estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type= 'ml.p3.16xlarge', instance_count= 2, volume_size= 200, role= <SageMaker Role>, # IAM role, transformers_version='4.6', pytorch_version='1.7', py_version='py36', distribution= distribution, hyperparameters = hyperparameters) # starting the train job huggingface_estimator.fit()

La مخزن Hugging Face Transformers شامل چندین مثال و اسکریپت برای تنظیم دقیق مدل ها در مورد وظایف از مدل سازی زبان تا طبقه بندی نشانه است. در مورد ما، ما استفاده می کنیم run_qa.py از examples/pytorch/question-answering مثال ها.

smdistributed.dataparallel پشتیبانی از آموزش مدل در SageMaker با فقط انواع نمونه های زیر. برای بهترین عملکرد، توصیه می کنیم از نوع نمونه ای استفاده کنید که پشتیبانی می کند آداپتور پارچه ای الاستیک (EFA):

ml.p3.16xlarge
ml.p3dn.24xlarge (توصیه می شود)
ml.p4d.24xlarge (توصیه می شود)

برای به دست آوردن بهترین عملکرد و بیشترین بهره SMDataParallel، باید حداقل از دو نمونه استفاده کنید، اما می توانید برای آزمایش این مثال از یکی نیز استفاده کنید.

در زیر نمونه دفترچه یادداشت راهنمای گام به گام دقیق تر را ارائه می دهد.

آموزش توزیع شده: مدل موازی

برای آموزش توزیع‌شده با موازی‌سازی مدل، از Transformers و مجموعه داده‌های Hugging Face به همراه SageMaker SDK برای طبقه‌بندی توالی در ارزیابی درک عمومی زبان (GLUE) معیار در یک خوشه چند گره، چند GPU با استفاده از کتابخانه موازی مدل SageMaker.

همانند موازی سازی داده ها، ابتدا پیکربندی git، فراپارامترهای آموزشی و پارامترهای توزیع را در HuggingFace برآوردگر:

# git configuration to download our fine-tuning script
git_config = {'repo': 'https://github.com/huggingface/transformers.git','branch': 'v4.6.1'} # hyperparameters, which are passed into the training job
hyperparameters={ 'model_name_or_path':'roberta-large', 'task_name': 'mnli', 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'do_train': True, 'do_eval': True, 'do_predict': True, 'num_train_epochs': 2, 'output_dir':'/opt/ml/model', 'max_steps': 500,
} # configuration for running training on smdistributed Model Parallel
mpi_options = { "enabled" : True, "processes_per_host" : 8,
}
smp_options = { "enabled":True, "parameters": { "microbatches": 4, "placement_strategy": "spread", "pipeline": "interleaved", "optimize": "speed", "partitions": 4, "ddp": True, }
} distribution={ "smdistributed": {"modelparallel": smp_options}, "mpi": mpi_options
}

کتابخانه موازی مدل به صورت داخلی از MPI استفاده می کند، بنابراین برای استفاده از موازی سازی مدل، MPI باید با استفاده از پارامتر توزیع فعال شود. "processes_per_host” در کد قبلی تعداد فرآیندهایی را که MPI باید روی هر میزبان راه اندازی کند مشخص می کند. ما اینها را برای توسعه و آزمایش پیشنهاد می کنیم. در زمان تولید، در صورت درخواست ظرفیت GPU گسترده، می توانید با پشتیبانی AWS تماس بگیرید. برای اطلاعات بیشتر ببین یک کار آموزشی موازی مدل توزیع شده SageMaker را اجرا کنید.

در زیر نمونه دفترچه یادداشت شامل اسکریپت های کد کامل است.

موارد نقطه ای

با افزونه Hugging Face برای SageMaker Python SDK، می‌توانیم از مزایای کاملاً مدیریت شده نیز بهره ببریم. ابر محاسبه الاستیک آمازون (Amazon EC2) موارد نقطه ای و تا 90٪ از هزینه آموزش ما صرفه جویی کنید.

اگر کار آموزشی شما به سرعت تکمیل نشود، توصیه می کنیم از آن استفاده کنید ایست بازرسی با آموزش نقطه ای مدیریت شده، بنابراین باید تعریف کنید checkpoint_s3_uri.

برای استفاده از Spot Instances با HuggingFace برآوردگر، ما باید آن را تنظیم کنیم use_spot_instances پارامتر را به True و خود را تعریف کنید max_wait و max_run زمان. برای اطلاعات بیشتر در مورد چرخه عمر تمرین نقطه مدیریت شده، نگاه کنید آموزش نقطه ای مدیریت شده در Amazon SageMaker.

در زیر یک قطعه کد برای راه اندازی یک برآوردگر آموزشی نقطه ای آمده است:

from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters={'epochs': 1, 'train_batch_size': 32, 'model_name':'distilbert-base-uncased', 'output_dir':'/opt/ml/checkpoints' } # s3 uri where our checkpoints will be uploaded during training
job_name = "using-spot"
checkpoint_s3_uri = f's3://{sess.default_bucket()}/{job_name}/checkpoints' huggingface_estimator = HuggingFace(entry_point='train.py', source_dir='./scripts', instance_type='ml.p3.2xlarge', instance_count=1, base_job_name=job_name, checkpoint_s3_uri=checkpoint_s3_uri, use_spot_instances=True, max_wait=3600, # This should be equal to or greater than max_run in seconds' max_run=1000, # expected max run in seconds role=role, transformers_version='4.6', pytorch_version='1.7', py_version='py36', hyperparameters = hyperparameters)

در زیر دفتر یادداشت شامل اسکریپت های کد کامل است.

نتیجه

در این پست به آموزش توزیع شده ترانسفورماتورهای صورت در آغوش گرفتن با استفاده از SageMaker پرداختیم. ما ابتدا موارد استفاده برای موازی سازی داده ها در مقابل موازی سازی مدل را بررسی کردیم. موازی سازی داده ها معمولاً مناسب تر است اما لزوماً محدود به زمانی نیست که آموزش با محاسبات در تنگنا قرار می گیرد، در حالی که می توانید از موازی سازی مدل زمانی استفاده کنید که یک مدل نمی تواند در حافظه ارائه شده در یک شتاب دهنده منفرد جا بیفتد. سپس نحوه تمرین با هر دو روش را نشان دادیم.

در مورد استفاده از موازی سازی داده که مورد بحث قرار گرفتیم، آموزش یک مدل روی یک نمونه p3.2xlarge (با یک GPU) 4 ساعت طول می کشد و در زمان نوشتن این مقاله تقریباً 15 دلار هزینه دارد. با موازی سازی داده ها، می توانیم همان مدل را در 24 دقیقه با هزینه 28 دلار آموزش دهیم. اگرچه هزینه دو برابر شده است، اما این باعث کاهش 10 برابری زمان آموزش شده است. برای شرایطی که در آن شما نیاز به آموزش مدل های زیادی در مدت زمان کوتاه دارید، موازی سازی داده ها می تواند این کار را با افزایش هزینه نسبتا کم امکان پذیر کند. در مورد استفاده از موازی سازی مدل، قابلیت آموزش مدل هایی را اضافه می کند که به دلیل محدودیت های سخت افزاری اصلاً قبلاً نمی توانستند آموزش داده شوند. هر دو ویژگی گردش‌های کاری جدید را برای متخصصان ML فعال می‌کنند و به راحتی از طریق آن قابل دسترسی هستند HuggingFace برآوردگر به عنوان بخشی از SageMaker Python SDK. استقرار این مدل‌ها در نقاط پایانی میزبانی‌شده از رویه مشابهی برای برآوردگرهای دیگر پیروی می‌کند.

این ادغام ویژگی های دیگری را که بخشی از اکوسیستم SageMaker هستند را فعال می کند. برای مثال، می‌توانید از Spot Instance‌ها با افزودن یک پرچم ساده به تخمین‌گر برای بهینه‌سازی هزینه بیشتر استفاده کنید. به عنوان مرحله بعدی، می توانید آن را پیدا کرده و اجرا کنید دمو آموزشی و نمونه دفترچه یادداشت.

درباره نویسنده

آرشیس جوگلکار یک معمار راه حل های شریک هوش مصنوعی در تیم فناوری های نوظهور است. او به یادگیری عمیق مقیاس پذیر و عملکردی و محاسبات علمی با استفاده از بلوک های ساختمان در AWS علاقه مند است. تجربیات گذشته او از تحقیقات فیزیک محاسباتی تا توسعه پلت فرم یادگیری ماشین در دانشگاه ها، آزمایشگاه های ملی و استارت آپ ها را شامل می شود. زمان دوری او از کامپیوتر به بازی فوتبال و با دوستان و خانواده می گذرد.

جیمز یی یک معمار راه حل شریک AI/ML Sr. در تیم Emerging Technologies در خدمات وب آمازون است. او مشتاق کار با مشتریان و شرکای سازمانی برای طراحی، استقرار و مقیاس‌بندی برنامه‌های AI/ML برای استخراج ارزش‌های تجاری آنها است. خارج از محل کار، او از بازی فوتبال، مسافرت و گذراندن وقت با خانواده لذت می برد.

فیلیپ اشمید مهندس یادگیری ماشین و سرپرست فناوری در Hugging Face است، جایی که او همکاری با تیم آمازون SageMaker را رهبری می کند. او مشتاق دموکراتیک کردن، بهینه‌سازی و تولید مدل‌های پیشرفته NLP و بهبود سهولت استفاده برای یادگیری عمیق است.

سیلوین گوگر مهندس محقق در Hugging Face و یکی از نگهبانان اصلی کتابخانه Transformers است. او عاشق نرم افزار منبع باز است و به جامعه کمک می کند از آن استفاده کنند.

جف بودیر محصولاتی را در Hugging Face، خالق Transformers، پیشرو کتابخانه منبع باز ML ایجاد می کند. پیش از این جف یکی از بنیانگذاران Stupeflix بود که توسط GoPro خریداری شد و در آنجا به عنوان مدیر مدیریت محصول، بازاریابی محصول، توسعه کسب و کار و توسعه شرکت مشغول به کار بود.

منبع: https://aws.amazon.com/blogs/machine-learning/distributed-fine tuning-of-a-bert-large-model-for-a-question-answering-task-using-hugging-face- ترانسفورماتور-در-آمازون-سنج میکر/

تمبر زمان: ژانویه 20، 2022

تمبر زمان: اکتبر 18، 2021

تنظیم دقیق مدل BERT Large برای یک کار پرسش و پاسخ با استفاده از ترانسفورماتورهای صورت در آغوش گرفته در Amazon SageMaker

بازنشر افلاطون

مروری بر آموزش های توزیع شده

پیش نیازها

اجرای آموزش های توزیعی

یک مدل را با استفاده از برآوردگرهای صورت در آغوش گرفته SageMaker آموزش دهید

آموزش توزیع شده: داده های موازی

آموزش توزیع شده: مدل موازی

موارد نقطه ای

نتیجه

درباره نویسنده

بیشتر از وبلاگ یادگیری ماشین AWS

تشخیص علف های هرز در محصولات مزرعه را با استفاده از برچسب های سفارشی شناسایی آمازون به صورت خودکار انجام دهید

معرفی اجزای یادگیری تقویتی Amazon SageMaker برای خطوط لوله منبع باز Kubeflow

چگونه لککر با آمازون SageMaker Debugger بینش بیشتری در مورد مدل ریزش مشتری خود به دست آورد

دستیابی به 12 برابر بازده بالاتر و کمترین تأخیر برای برنامه‌های پردازش زبان طبیعی PyTorch خارج از جعبه در AWS Inferentia

اسناد حاوی محتوای جدولی دست نویس را با استفاده از Amazon Textract و Amazon A2I پردازش کنید

بهبود بهره وری عملیاتی با نظارت تجهیزات یکپارچه با TensorIoT با AWS

زیرنویس‌ها و زیرنویس‌های ویدیو را با استفاده از ترجمه آمازون ترجمه کنید

با استفاده از Amazon Lex V2، مراقبت از بیمار را با دستیار صوتی سفارشی ساده کنید

سیستم‌های پیش‌بینی را سریع‌تر با گردش کار و اعلان‌های خودکار در آمازون Forecast ایجاد کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب