Tinh chỉnh được phân phối của một mô hình lớn BERT cho nhiệm vụ trả lời câu hỏi bằng cách sử dụng Transformers ôm mặt trên Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Từ việc đào tạo các mô hình mới đến việc triển khai chúng trong sản xuất, Amazon SageMaker cung cấp bộ công cụ hoàn chỉnh nhất cho các công ty khởi nghiệp và doanh nghiệp để khai thác sức mạnh của học máy (ML) và Học sâu.

Với thư viện mã nguồn mở Transformers và nền tảng ML, Hugging Face giúp cho việc học chuyển giao và các mô hình ML mới nhất có thể truy cập được vào cộng đồng AI toàn cầu, giảm thời gian cần thiết cho các nhà khoa học dữ liệu và kỹ sư ML trong các công ty trên khắp thế giới để tận dụng mọi kiến thức khoa học mới thăng tiến.

Việc áp dụng Máy biến áp vào các nhiệm vụ hoặc lĩnh vực NLP mới đòi hỏi phải tinh chỉnh các mô hình ngôn ngữ lớn, một kỹ thuật tận dụng kiến thức tích lũy của các mô hình được đào tạo trước để điều chỉnh chúng với một nhiệm vụ mới hoặc loại tài liệu cụ thể trong một quá trình đào tạo bổ sung, hiệu quả.

Việc tinh chỉnh mô hình để đưa ra các dự đoán chính xác cho vấn đề kinh doanh hiện tại đòi hỏi phải đào tạo các mô hình Transformers lớn, chẳng hạn như BERT, BART, RoBERTa, T5, có thể khó thực hiện theo cách có thể mở rộng.

Hugging Face đã hợp tác chặt chẽ với SageMaker để cung cấp Hộp chứa Deep Learning đã sẵn sàng để sử dụng (DLC) giúp việc đào tạo và triển khai các mô hình Transformers mới nhất trở nên dễ dàng và nhanh chóng hơn bao giờ hết. Bởi vì các tính năng như SageMaker Data Parallel (SMDP), SageMaker Model Parallel (SMMP), chế độ ống S3, được tích hợp vào vùng chứa, việc sử dụng những tính năng này giúp giảm đáng kể thời gian cho các công ty tạo ra các giải pháp ML dựa trên Transformers như trả lời câu hỏi, tạo văn bản và hình ảnh, tối ưu hóa kết quả tìm kiếm và cải thiện tự động hóa hỗ trợ khách hàng, giao diện trò chuyện, tìm kiếm ngữ nghĩa, phân tích tài liệu và nhiều ứng dụng khác.

Trong bài đăng này, chúng tôi tập trung vào việc tích hợp sâu các thư viện phân tán của SageMaker với Khuôn mặt ôm, cho phép các nhà khoa học dữ liệu đẩy nhanh quá trình đào tạo và tinh chỉnh các mô hình Transformers từ ngày này sang giờ khác, tất cả đều có trong SageMaker.

Tổng quan về đào tạo phân tán

Các nhà thực hành ML và nhà khoa học dữ liệu phải đối mặt với hai thách thức mở rộng quy mô khi đào tạo mô hình: mở rộng kích thước mô hình (số lượng tham số và lớp) và chia tỷ lệ dữ liệu đào tạo. Chia tỷ lệ kích thước mô hình hoặc dữ liệu đào tạo có thể mang lại độ chính xác tốt hơn, nhưng có thể có trường hợp trong học sâu, trong đó dung lượng bộ nhớ trên bộ tăng tốc (CPU hoặc GPU) giới hạn sự kết hợp giữa kích thước của dữ liệu đào tạo và kích thước của người mẫu. Ví dụ, khi đào tạo một mô hình ngôn ngữ lớn, kích thước lô thường bị giới hạn ở một số lượng mẫu nhỏ, điều này có thể dẫn đến một mô hình kém chính xác hơn.

Đào tạo phân tán có thể chia nhỏ khối lượng công việc để đào tạo mô hình giữa nhiều bộ xử lý, được gọi là công nhân. Những công nhân này hoạt động song song để tăng tốc độ đào tạo người mẫu.

Dựa trên những gì chúng tôi muốn mở rộng quy mô (mô hình hoặc dữ liệu), có hai cách tiếp cận để đào tạo phân tán: dữ liệu song song và mô hình song song.

Dữ liệu song song là cách tiếp cận phổ biến nhất để đào tạo phân tán. Song song dữ liệu đòi hỏi phải tạo ra một bản sao của kiến trúc mô hình và trọng số trên các bộ gia tốc khác nhau. Sau đó, thay vì chuyển toàn bộ bộ đào tạo cho một bộ tăng tốc duy nhất, chúng ta có thể phân chia bộ đào tạo trên các bộ tăng tốc khác nhau và vượt qua bộ đào tạo nhanh hơn. Mặc dù điều này bổ sung thêm bước các máy gia tốc cần truyền thông tin gradient của chúng trở lại máy chủ tham số, nhưng thời gian này được bù đắp nhiều hơn bởi tốc độ tăng tốc độ lặp qua một phần nhỏ của toàn bộ tập dữ liệu trên mỗi máy gia tốc. Do đó, tính song song của dữ liệu có thể giúp giảm đáng kể thời gian đào tạo. Ví dụ, đào tạo một mô hình đơn lẻ không song song mất 4 giờ. Sử dụng đào tạo phân tán có thể giảm điều đó xuống còn 24 phút. Đào tạo phân tán của SageMaker cũng thực hiện các kỹ thuật tiên tiến trong các bản cập nhật gradient.

Phương pháp tiếp cận song song mô hình được sử dụng với các mô hình lớn quá lớn để lắp trên một bộ gia tốc (GPU). Cách tiếp cận này thực hiện một chiến lược song song hóa trong đó kiến trúc mô hình được chia thành các mảnh và được đặt trên các bộ gia tốc khác nhau. Cấu hình của mỗi phân đoạn này phụ thuộc vào kiến trúc mạng nơ-ron và thường bao gồm một số lớp. Giao tiếp giữa các bộ gia tốc xảy ra mỗi khi dữ liệu huấn luyện chuyển từ một trong các phân đoạn này sang phân đoạn tiếp theo.

Tóm lại, bạn nên sử dụng song song dữ liệu đào tạo phân tán cho các tác vụ đòi hỏi nhiều thời gian do bộ dữ liệu lớn hoặc khi bạn muốn tăng tốc các thử nghiệm đào tạo của mình. Bạn nên sử dụng mô hình song song khi mô hình của bạn không thể vừa với một máy gia tốc.

Điều kiện tiên quyết

Để thực hiện đào tạo phân tán các mô hình Người biến hình ôm mặt trong SageMaker, bạn cần hoàn thành các điều kiện tiên quyết sau:

Thực hiện đào tạo phân tán

Thư viện Hugging Face Transformers cung cấp API huấn luyện viên được tối ưu hóa để đào tạo hoặc tinh chỉnh các mô hình mà thư viện cung cấp. Bạn cũng có thể sử dụng nó trên các mô hình của riêng mình nếu chúng hoạt động giống như các mô hình Transformers; thấy Huấn luyện viên để biết thêm chi tiết. API này được sử dụng trong tập lệnh ví dụ, hiển thị cách xử lý trước dữ liệu cho các tác vụ NLP khác nhau, mà bạn có thể lấy làm mô hình để viết kịch bản giải quyết vấn đề tùy chỉnh của riêng bạn. Lời hứa của API Trainer là tập lệnh này hoạt động hiệu quả trên bất kỳ thiết lập phân tán nào, bao gồm cả SageMaker.

API Trainer lấy mọi thứ cần thiết cho quá trình đào tạo. Điều này bao gồm tập dữ liệu của bạn, mô hình của bạn (hoặc một hàm trả về mô hình của bạn), compute_metrics hàm trả về các chỉ số bạn muốn theo dõi từ các mảng dự đoán và nhãn, trình tối ưu hóa và lập lịch tốc độ học tập của bạn (cung cấp các giá trị mặc định tốt), cũng như tất cả các siêu tham số mà bạn có thể điều chỉnh cho quá trình đào tạo của mình được nhóm lại trong một lớp dữ liệu có tên TrainingArguments. Với tất cả những điều đó, nó đưa ra ba phương pháp — huấn luyện, đánh giá và dự đoán — để huấn luyện mô hình của bạn, nhận kết quả số liệu trên bất kỳ tập dữ liệu nào hoặc nhận dự đoán trên bất kỳ tập dữ liệu nào. Để tìm hiểu thêm về đối tượng Trainer, hãy tham khảo Tinh chỉnh mô hình bằng API Trainer và video API huấn luyện viên, hướng dẫn bạn qua một ví dụ đơn giản.

Đằng sau hậu trường, API Trainer bắt đầu bằng cách phân tích môi trường mà bạn đang khởi chạy tập lệnh của mình khi bạn tạo TrainingArguments. Ví dụ: nếu bạn bắt đầu khóa đào tạo của mình với SageMaker, nó sẽ xem xét SM_FRAMEWORK_PARAMS biến trong môi trường để phát hiện xem bạn đã bật song song dữ liệu SageMaker hoặc song song mô hình hay chưa. Sau đó, nó lấy các biến có liên quan (chẳng hạn như thứ hạng của quy trình hoặc quy mô thế giới) từ môi trường trước khi thực hiện các bước khởi tạo cần thiết (chẳng hạn như smdistributed.dataparallel.torch.distributed.init_process_group()).

Trainer chứa toàn bộ vòng huấn luyện, vì vậy nó có thể điều chỉnh các bước cần thiết để đảm bảo smdistributed.dataparallel chương trình phụ trợ được sử dụng khi cần thiết mà bạn không cần phải thay đổi một dòng mã trong tập lệnh của mình. Nó vẫn có thể chạy (mặc dù chậm hơn nhiều) trên máy cục bộ của bạn để gỡ lỗi. Nó xử lý việc làm sắc nét tập dữ liệu của bạn để mỗi quá trình tự động nhìn thấy các mẫu khác nhau, với sự cải tổ ở mỗi kỷ nguyên, đồng bộ hóa gradient của bạn trước bước tối ưu hóa, đào tạo độ chính xác hỗn hợp nếu bạn kích hoạt nó, tích lũy gradient nếu bạn không thể phù hợp với kích thước lô lớn trên GPU của bạn và nhiều tối ưu hóa khác.

Nếu bạn kích hoạt mô hình song song, nó đảm bảo các quy trình phải xem cùng một dữ liệu (nếu dp_rank giống nhau) nhận các lô giống nhau và xử lý với các dp_rank không nhìn thấy các mẫu giống nhau, một lần nữa với sự cải tổ ở mỗi kỷ nguyên. Nó đảm bảo từ điển trạng thái của mô hình hoặc trình tối ưu hóa được đồng bộ hóa đúng cách khi điểm kiểm tra và một lần nữa xử lý tất cả các tối ưu hóa như độ chính xác hỗn hợp và tích lũy độ dốc.

Khi sử dụng các phương pháp đánh giá và dự đoán, Trình đào tạo thực hiện đánh giá phân tán, để tận dụng tất cả các GPU của bạn. Nó xử lý đúng cách việc chia nhỏ dữ liệu của bạn cho từng quy trình (quy trình giống nhau dp_rank nếu mô hình song song được kích hoạt) và đảm bảo rằng các dự đoán được thu thập đúng theo thứ tự như tập dữ liệu bạn đang sử dụng trước khi chúng được gửi đến compute_metrics chức năng hoặc chỉ trả về. Sử dụng API Trainer là không bắt buộc. Người dùng vẫn có thể sử dụng Keras hoặc PyTorch trong Ôm mặt. Tuy nhiên, API Trainer có thể cung cấp một lớp trừu tượng hữu ích.

Đào tạo người mẫu bằng cách sử dụng Công cụ ước tính khuôn mặt ôm SageMaker

Công cụ ước tính là một giao diện cấp cao để đào tạo SageMaker và xử lý các nhiệm vụ đào tạo và triển khai SageMaker từ đầu đến cuối. Việc đào tạo tập lệnh của bạn được gọi khi bạn gọi fit trên HuggingFace Công cụ ước tính. Trong Công cụ ước tính, bạn xác định tập lệnh tinh chỉnh nào sẽ sử dụng làm entry_point, Mà instance_type để sử dụng và siêu tham số nào được chuyển vào. Để biết thêm thông tin về HuggingFace tham số, xem Công cụ ước tính khuôn mặt ôm.

Đào tạo phân tán: Dữ liệu song song

Trong ví dụ này, chúng tôi sử dụng các DLC khuôn mặt ôm và SageMaker SDK mới để đào tạo mô hình Seq2Seq-biến áp phân tán về tác vụ câu hỏi và trả lời bằng cách sử dụng các thư viện Transformers và tập dữ liệu. Các bert-Large-unsased-whole-word-masking mô hình được tinh chỉnh trên đội hình tập dữ liệu.

Các mẫu mã sau đây cho bạn thấy các bước tạo HuggingFace ước lượng cho đào tạo phân tán với dữ liệu song song.

Chọn một kịch bản Người vận chuyển khuôn mặt ôm:

# git configuration to download our fine-tuning script
git_config = {'repo': 'https://github.com/huggingface/transformers.git','branch': 'v4.6.1'}

Khi bạn tạo một HuggingFace Công cụ ước tính, bạn có thể chỉ định tập lệnh đào tạo được lưu trữ trong kho lưu trữ GitHub làm điểm nhập cho Công cụ ước tính, vì vậy bạn không phải tải xuống cục bộ các tập lệnh. Bạn có thể dùng git_config để chạy các tập lệnh ví dụ về Người vận chuyển khuôn mặt ôm và 'nhánh' bên phải nếu transformers_version cần được cấu hình. Ví dụ, nếu bạn sử dụng transformers_version 4.6.1, bạn phải sử dụng 'branch':'v4.6.1'.

Định cấu hình các siêu tham số đào tạo được chuyển vào công việc đào tạo:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name_or_path': 'bert-large-uncased-whole-word-masking', 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 4, 'per_device_eval_batch_size': 4, 'num_train_epochs': 2, 'max_seq_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
}

Là một siêu tham số, chúng ta có thể xác định bất kỳ Seq2SeqTrainingĐối số và những cái được xác định trong tập lệnh đào tạo.

Xác định các tham số phân phối trong HuggingFace Công cụ ước tính:

# configuration for running training on smdistributed Data Parallel
distribution = {'smdistributed':{'dataparallel':{ 'enabled': True }}}

Bạn có thể sử dụng Thư viện song song dữ liệu SageMaker ra khỏi hộp để đào tạo phân tán. Chúng tôi đã thêm chức năng song song dữ liệu trực tiếp vào Trình huấn luyện. Để bật tính năng song song dữ liệu, bạn có thể chỉ cần thêm một tham số duy nhất vào HuggingFace Công cụ ước tính để cho phép mã dựa trên Huấn luyện viên của bạn tự động sử dụng nó.

Tạo ra một HuggingFace Công cụ ước tính bao gồm các tham số được xác định trong các bước trước đó và bắt đầu đào tạo:

from sagemaker.huggingface import HuggingFace
# estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type= 'ml.p3.16xlarge', instance_count= 2, volume_size= 200, role= <SageMaker Role>, # IAM role, transformers_version='4.6', pytorch_version='1.7', py_version='py36', distribution= distribution, hyperparameters = hyperparameters) # starting the train job huggingface_estimator.fit()

Sản phẩm Kho lưu trữ Người vận chuyển khuôn mặt ôm chứa một số ví dụ và tập lệnh để tinh chỉnh mô hình về các tác vụ từ mô hình ngôn ngữ đến phân loại mã thông báo. Trong trường hợp của chúng tôi, chúng tôi sử dụng run_qa.py từ examples/pytorch/question-answering ví dụ.

smdistributed.dataparallel hỗ trợ đào tạo mô hình trên SageMaker với các loại ví dụ sau chỉ. Để có hiệu suất tốt nhất, chúng tôi khuyên bạn nên sử dụng loại phiên bản hỗ trợ Bộ điều hợp vải đàn hồi (EFA):

ml.p3.16xlarge
ml.p3dn.24xlarge (Khuyến nghị)
ml.p4d.24xlarge (Khuyến nghị)

Để có được hiệu suất tốt nhất và tận dụng tối đa SMDataParallel, bạn nên sử dụng ít nhất hai phiên bản, nhưng bạn cũng có thể sử dụng một phiên bản để kiểm tra ví dụ này.

Sau đây ví dụ máy tính xách tay cung cấp hướng dẫn từng bước chi tiết hơn.

Đào tạo phân tán: Mô hình song song

Đối với đào tạo phân tán với mô hình song song, chúng tôi sử dụng Thư viện bộ dữ liệu và Biến hình khuôn mặt ôm cùng với SageMaker SDK để phân loại trình tự trên Đánh giá hiểu ngôn ngữ chung (GLUE) điểm chuẩn trên một cụm đa nút, nhiều GPU bằng cách sử dụng Thư viện song song mô hình SageMaker.

Giống như đối với dữ liệu song song, trước tiên, chúng tôi đặt cấu hình git, siêu tham số đào tạo và tham số phân phối trong HuggingFace Công cụ ước tính:

# git configuration to download our fine-tuning script
git_config = {'repo': 'https://github.com/huggingface/transformers.git','branch': 'v4.6.1'} # hyperparameters, which are passed into the training job
hyperparameters={ 'model_name_or_path':'roberta-large', 'task_name': 'mnli', 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'do_train': True, 'do_eval': True, 'do_predict': True, 'num_train_epochs': 2, 'output_dir':'/opt/ml/model', 'max_steps': 500,
} # configuration for running training on smdistributed Model Parallel
mpi_options = { "enabled" : True, "processes_per_host" : 8,
}
smp_options = { "enabled":True, "parameters": { "microbatches": 4, "placement_strategy": "spread", "pipeline": "interleaved", "optimize": "speed", "partitions": 4, "ddp": True, }
} distribution={ "smdistributed": {"modelparallel": smp_options}, "mpi": mpi_options
}

Thư viện song song mô hình sử dụng nội bộ MPI, do đó, để sử dụng song song mô hình, MPI phải được kích hoạt bằng cách sử dụng tham số phân phối. “processes_per_host”Trong đoạn mã trước chỉ định số lượng quy trình mà MPI sẽ khởi chạy trên mỗi máy chủ. Chúng tôi đề xuất những điều này để phát triển và thử nghiệm. Tại thời điểm sản xuất, bạn có thể liên hệ với Bộ phận hỗ trợ AWS nếu yêu cầu dung lượng GPU mở rộng. Để biết thêm thông tin, hãy xem Chạy công việc đào tạo song song mô hình phân tán SageMaker.

Sau đây ví dụ máy tính xách tay chứa các tập lệnh mã hoàn chỉnh.

Trường hợp tại chỗ

Với tiện ích mở rộng khuôn khổ Hugging Face cho SageMaker Python SDK, chúng tôi cũng có thể tận dụng lợi thế của việc quản lý hoàn toàn Đám mây điện toán đàn hồi Amazon (Amazon EC2) Trường hợp tại chỗ và tiết kiệm đến 90% chi phí đào tạo của chúng tôi.

Trừ khi công việc đào tạo của bạn sẽ hoàn thành nhanh chóng, chúng tôi khuyên bạn nên sử dụng kiểm tra với đào tạo tại chỗ được quản lý, do đó bạn cần xác định checkpoint_s3_uri.

Để sử dụng Phiên bản Spot với HuggingFace Công cụ ước tính, chúng ta phải đặt use_spot_instances tham số True và xác định max_wait và max_run thời gian. Để biết thêm thông tin về vòng đời đào tạo tại chỗ được quản lý, hãy xem Quản lý đào tạo tại chỗ trong Amazon SageMaker.

Sau đây là đoạn mã để thiết lập Công cụ ước tính đào tạo tại chỗ:

from sagemaker.huggingface import HuggingFace # hyperparameters, which are passed into the training job
hyperparameters={'epochs': 1, 'train_batch_size': 32, 'model_name':'distilbert-base-uncased', 'output_dir':'/opt/ml/checkpoints' } # s3 uri where our checkpoints will be uploaded during training
job_name = "using-spot"
checkpoint_s3_uri = f's3://{sess.default_bucket()}/{job_name}/checkpoints' huggingface_estimator = HuggingFace(entry_point='train.py', source_dir='./scripts', instance_type='ml.p3.2xlarge', instance_count=1, base_job_name=job_name, checkpoint_s3_uri=checkpoint_s3_uri, use_spot_instances=True, max_wait=3600, # This should be equal to or greater than max_run in seconds' max_run=1000, # expected max run in seconds role=role, transformers_version='4.6', pytorch_version='1.7', py_version='py36', hyperparameters = hyperparameters)

Sau đây máy tính xách tay chứa các tập lệnh mã hoàn chỉnh.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về việc đào tạo phân tán Người biến hình ôm mặt bằng cách sử dụng SageMaker. Trước tiên, chúng tôi đã xem xét các trường hợp sử dụng cho song song dữ liệu so với song song mô hình. Tính song song dữ liệu thường thích hợp hơn nhưng không nhất thiết bị hạn chế khi quá trình đào tạo bị tắc nghẽn bởi máy tính, trong khi bạn có thể sử dụng song song mô hình khi một mô hình không thể vừa với bộ nhớ được cung cấp trên một máy gia tốc duy nhất. Sau đó chúng tôi hướng dẫn cách huấn luyện bằng cả hai phương pháp.

Trong trường hợp sử dụng song song dữ liệu mà chúng ta đã thảo luận, việc đào tạo một mô hình trên một phiên bản p3.2xlarge duy nhất (với một GPU duy nhất) mất 4 giờ và tốn khoảng 15 đô la tại thời điểm viết bài này. Với tính năng song song dữ liệu, chúng tôi có thể đào tạo cùng một mô hình trong 24 phút với chi phí 28 đô la. Mặc dù chi phí đã tăng gấp đôi, điều này đã làm giảm thời gian đào tạo xuống một hệ số 10. Đối với tình huống bạn cần đào tạo nhiều mô hình trong một khoảng thời gian ngắn, song song dữ liệu có thể cho phép điều này với mức tăng chi phí tương đối thấp. Đối với trường hợp sử dụng song song mô hình, nó bổ sung thêm khả năng đào tạo các mô hình mà trước đây không thể được đào tạo do giới hạn phần cứng. Cả hai tính năng đều cho phép quy trình làm việc mới cho những người thực hành ML và có thể dễ dàng truy cập thông qua HuggingFace Công cụ ước tính là một phần của SageMaker Python SDK. Việc triển khai các mô hình này cho các điểm cuối được lưu trữ tuân theo quy trình tương tự như đối với các Công cụ ước tính khác.

Sự tích hợp này cho phép các tính năng khác là một phần của hệ sinh thái SageMaker. Ví dụ: bạn có thể sử dụng Phiên bản Spot bằng cách thêm một cờ đơn giản vào Công cụ ước tính để tối ưu hóa chi phí bổ sung. Bước tiếp theo, bạn có thể tìm và chạy đào tạo demo và ví dụ máy tính xách tay.

Về các tác giả

Lưu trữ Joglekar là một Kiến trúc sư Giải pháp Đối tác AI / ML trong nhóm Các công nghệ mới nổi. Anh ấy quan tâm đến việc học sâu hiệu quả, có thể mở rộng và tính toán khoa học bằng cách sử dụng các khối xây dựng tại AWS. Những kinh nghiệm trong quá khứ của anh ấy bao gồm từ nghiên cứu vật lý tính toán đến phát triển nền tảng máy học trong học viện, phòng thí nghiệm quốc gia và các công ty khởi nghiệp. Thời gian rời xa máy tính của anh ấy dành để chơi bóng đá và với bạn bè và gia đình.

James Yi là Sr. Kiến trúc sư giải pháp đối tác AI / ML trong nhóm Các công nghệ mới nổi tại Amazon Web Services. Anh ấy rất đam mê làm việc với các khách hàng và đối tác doanh nghiệp để thiết kế, triển khai và mở rộng quy mô các ứng dụng AI / ML nhằm tạo ra các giá trị kinh doanh của họ. Ngoài công việc, anh ấy thích đá bóng, đi du lịch và dành thời gian cho gia đình.

Philipp Schmid là Kỹ sư Máy học và Trưởng nhóm Công nghệ tại Hugging Face, nơi anh ấy dẫn đầu sự cộng tác với nhóm Amazon SageMaker. Anh ấy đam mê dân chủ hóa, tối ưu hóa và sản xuất các mô hình NLP tiên tiến và cải thiện tính dễ sử dụng cho Học sâu.

Sylvain Gugger là Kỹ sư nghiên cứu tại Hugging Face và là một trong những người bảo trì chính của thư viện Transformers. Anh ấy yêu thích phần mềm mã nguồn mở và giúp cộng đồng sử dụng nó.

Jeff Boudier xây dựng các sản phẩm tại Hugging Face, tác giả của Transformers, thư viện ML nguồn mở hàng đầu. Trước đây, Jeff là người đồng sáng lập của Stupeflix, được GoPro mua lại, nơi ông giữ chức vụ Giám đốc Quản lý Sản phẩm, Tiếp thị Sản phẩm, Phát triển Kinh doanh và Phát triển Công ty.

Nguồn: https://aws.amazon.com/blogs/machine-learning/distributed-fine-tuning-of-a-bert-large-model-for-a-question-ans tower-task-using-hugging-face- Transformers-on-amazon-sagemaker /

Dấu thời gian: 20 Tháng một, 2022

Dấu thời gian: Tháng Mười 18, 2021

Phân phối tinh chỉnh mô hình BERT Large cho Nhiệm vụ trả lời câu hỏi bằng cách sử dụng Người biến hình ôm mặt trên Amazon SageMaker

Được xuất bản lại bởi Plato

Tổng quan về đào tạo phân tán

Điều kiện tiên quyết

Thực hiện đào tạo phân tán

Đào tạo người mẫu bằng cách sử dụng Công cụ ước tính khuôn mặt ôm SageMaker

Đào tạo phân tán: Dữ liệu song song

Đào tạo phân tán: Mô hình song song

Trường hợp tại chỗ

Kết luận

Về các tác giả

Thêm từ Blog Học máy AWS

Tự động phát hiện cỏ dại trong cây trồng nông nghiệp bằng cách sử dụng Nhãn tùy chỉnh của Amazon Rekognition

Giới thiệu Thành phần học tập củng cố Amazon SageMaker cho các đường ống Kubeflow mã nguồn mở

Cách lekker hiểu rõ hơn về mô hình rời bỏ khách hàng của họ với Amazon SageMaker Debugger

Đạt được thông lượng cao hơn 12 lần và độ trễ thấp nhất cho các ứng dụng Xử lý ngôn ngữ tự nhiên PyTorch ngay lập tức trên AWS Inferentia

Xử lý tài liệu chứa nội dung dạng bảng viết tay bằng Amazon Textract và Amazon A2I

Cải thiện hiệu quả hoạt động với giám sát thiết bị tích hợp với TensorIoT được cung cấp bởi AWS

Dịch phụ đề video bằng Amazon Translate

Đơn giản hóa việc chăm sóc bệnh nhân với trợ lý giọng nói tùy chỉnh bằng Amazon Lex V2

Tạo hệ thống dự báo nhanh hơn với quy trình làm việc và thông báo tự động trong Amazon Forecast

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản