Giới thiệu máy học kết hợp

Nút nguồn: 1575227

Gartner dự đoán rằng đến cuối năm 2024, 75% doanh nghiệp sẽ chuyển từ thí điểm sang vận hành trí tuệ nhân tạo (AI) và phần lớn khối lượng công việc sẽ kết thúc trên đám mây về lâu dài. Đối với một số doanh nghiệp có kế hoạch di chuyển sang đám mây, mức độ phức tạp, quy mô và độ dài của quá trình di chuyển có thể gây khó khăn. Tốc độ của các nhóm khác nhau và sự khao khát của họ đối với công cụ mới có thể khác nhau đáng kể. Nhóm khoa học dữ liệu của một doanh nghiệp có thể khao khát áp dụng công nghệ đám mây mới nhất, trong khi nhóm phát triển ứng dụng tập trung vào việc chạy các ứng dụng web của họ tại chỗ. Ngay cả với kế hoạch di chuyển qua đám mây kéo dài nhiều năm, một số bản phát hành sản phẩm phải được xây dựng trên đám mây để đáp ứng kết quả kinh doanh của doanh nghiệp.

Đối với những khách hàng này, chúng tôi đề xuất các mẫu máy học kết hợp (ML) như một bước trung gian trong hành trình đến với đám mây của bạn. Các mẫu ML kết hợp là những mẫu liên quan đến tối thiểu hai môi trường máy tính, điển hình là các tài nguyên máy tính cục bộ như máy tính xách tay cá nhân hoặc trung tâm dữ liệu công ty và đám mây. Với các mẫu kiến ​​trúc ML kết hợp được mô tả trong bài đăng này, các doanh nghiệp có thể đạt được mục tiêu kinh doanh mong muốn của mình mà không cần phải đợi quá trình di chuyển đám mây hoàn tất. Vào cuối ngày, chúng tôi muốn hỗ trợ sự thành công của khách hàng dưới mọi hình thức và hình thức.

Chúng tôi đã xuất bản một báo cáo chính thức mới, Học máy kết hợp, để giúp bạn tích hợp đám mây với cơ sở hạ tầng ML tại chỗ hiện có. Để biết thêm báo cáo chính thức từ AWS, hãy xem Sách trắng & Hướng dẫn AWS.

Các mẫu kiến ​​trúc ML kết hợp

Sách trắng cung cấp cho bạn cái nhìn tổng quan về các mẫu ML kết hợp khác nhau trong toàn bộ vòng đời của ML, bao gồm phát triển mô hình ML, chuẩn bị dữ liệu, đào tạo, triển khai và quản lý liên tục. Bảng sau đây tóm tắt tám kiểu kiến ​​trúc ML kết hợp khác nhau mà chúng tôi thảo luận trong whitepaper. Đối với mỗi mẫu, chúng tôi cung cấp một kiến ​​trúc tham khảo sơ bộ bên cạnh những ưu điểm và nhược điểm. Chúng tôi cũng xác định tiêu chí “khi nào nên di chuyển” để giúp bạn đưa ra quyết định — ví dụ: khi mức độ nỗ lực để duy trì và mở rộng một mẫu nhất định đã vượt quá giá trị mà nó cung cấp.

Phát triển Hội thảo Triển khai
Phát triển trên máy tính cá nhân, đào tạo và lưu trữ trên đám mây Đào tạo cục bộ, triển khai trên đám mây Cung cấp các mô hình ML trên đám mây cho các ứng dụng được lưu trữ tại chỗ
Phát triển trên máy chủ cục bộ, đào tạo và lưu trữ trên đám mây Lưu trữ dữ liệu cục bộ, đào tạo và triển khai trên đám mây Lưu trữ các mô hình ML với Lambda@Edge cho các ứng dụng tại cơ sở
Phát triển trên đám mây trong khi kết nối với dữ liệu được lưu trữ tại chỗ Đào tạo với nhà cung cấp SaaS bên thứ ba để lưu trữ trên đám mây
Đào tạo trên đám mây, triển khai mô hình ML tại chỗ Sắp xếp khối lượng công việc ML kết hợp với Kubeflow và Amazon EKS Anywhere

Trong bài đăng này, chúng tôi đi sâu vào mô hình kiến ​​trúc kết hợp để triển khai với trọng tâm là phân phối các mô hình được lưu trữ trên đám mây cho các ứng dụng được lưu trữ tại chỗ.

Tổng quan kiến ​​trúc

Trường hợp sử dụng phổ biến nhất cho mô hình kết hợp này là di chuyển doanh nghiệp. Nhóm khoa học dữ liệu của bạn có thể đã sẵn sàng triển khai lên đám mây, nhưng nhóm ứng dụng của bạn vẫn đang cấu trúc lại mã của họ để lưu trữ trên các dịch vụ riêng của đám mây. Cách tiếp cận này cho phép các nhà khoa học dữ liệu đưa các mô hình mới nhất của họ ra thị trường, trong khi nhóm ứng dụng xem xét riêng khi nào, ở đâu và làm thế nào để chuyển phần còn lại của ứng dụng lên đám mây.

Sơ đồ sau đây cho thấy kiến ​​trúc để lưu trữ một mô hình ML thông qua Amazon SageMaker trong Khu vực AWS, phục vụ phản hồi cho các yêu cầu từ các ứng dụng được lưu trữ tại cơ sở.

ML kết hợp

Kỹ thuật lặn sâu

Trong phần này, chúng tôi đi sâu vào kiến ​​trúc kỹ thuật và tập trung vào các thành phần khác nhau bao gồm khối lượng công việc kết hợp một cách rõ ràng và tham khảo các tài nguyên ở nơi khác nếu cần.

Hãy lấy một trường hợp sử dụng trong thế giới thực của một công ty bán lẻ có nhóm phát triển ứng dụng đã lưu trữ ứng dụng web thương mại điện tử của họ tại cơ sở. Công ty muốn cải thiện lòng trung thành với thương hiệu, tăng doanh số bán hàng và doanh thu cũng như tăng hiệu quả bằng cách sử dụng dữ liệu để tạo ra trải nghiệm khách hàng tinh vi và độc đáo hơn. Họ dự định tăng mức độ tương tác của khách hàng lên 50% bằng cách thêm tiện ích con "được đề xuất cho bạn" trên màn hình chính của họ. Tuy nhiên, họ đang gặp khó khăn trong việc cung cấp trải nghiệm được cá nhân hóa do những hạn chế của hệ thống tĩnh, dựa trên quy tắc, sự phức tạp và chi phí cũng như sự va chạm với tích hợp nền tảng do kiến ​​trúc tại chỗ, kế thừa hiện tại của họ.

Nhóm ứng dụng có chiến lược di chuyển doanh nghiệp trong 5 năm để cấu trúc lại ứng dụng web của họ bằng cách sử dụng kiến ​​trúc gốc đám mây để chuyển sang đám mây, trong khi nhóm khoa học dữ liệu sẵn sàng bắt đầu triển khai trên đám mây. Với mô hình kiến ​​trúc kết hợp được mô tả trong bài đăng này, công ty có thể đạt được kết quả kinh doanh mong muốn của họ một cách nhanh chóng mà không cần phải đợi quá trình chuyển đổi doanh nghiệp trong 5 năm hoàn thành.

Các nhà khoa học dữ liệu phát triển mô hình ML, thực hiện đào tạo và triển khai mô hình được đào tạo trên đám mây. Ứng dụng web thương mại điện tử được lưu trữ tại chỗ sử dụng mô hình ML thông qua các điểm cuối tiếp xúc. Hãy xem xét chi tiết điều này.

Trong giai đoạn phát triển mô hình, các nhà khoa học dữ liệu có thể sử dụng các môi trường phát triển cục bộ, chẳng hạn như cài đặt PyCharm hoặc Jupyter trên máy tính cá nhân của họ, sau đó kết nối với đám mây thông qua Quản lý truy cập và nhận dạng AWS (IAM) quyền và giao diện với các API dịch vụ AWS thông qua Giao diện dòng lệnh AWS (AWS CLI) hoặc AWS SDK (chẳng hạn như Boto3). Họ cũng có thể sử dụng linh hoạt Xưởng sản xuất Amazon SageMaker, một giao diện trực quan dựa trên web duy nhất đi kèm với các gói và hạt nhân khoa học dữ liệu phổ biến được cài đặt sẵn để phát triển mô hình.

Các nhà khoa học dữ liệu có thể tận dụng các khả năng đào tạo của SageMaker, bao gồm quyền truy cập vào các phiên bản CPU và GPU theo yêu cầu, điều chỉnh mô hình tự động, Phiên bản Spot được quản lý, điểm kiểm tra để lưu trạng thái của mô hình, đào tạo phân tán được quản lý, v.v. bằng cách sử dụng SDK đào tạo SageMaker và các API. Để biết tổng quan về các mô hình đào tạo với SageMaker, hãy xem Đào tạo người mẫu với Amazon SageMaker.

Sau khi mô hình được đào tạo, các nhà khoa học dữ liệu có thể triển khai các mô hình bằng cách sử dụng khả năng lưu trữ của SageMaker và hiển thị (các) điểm cuối REST HTTP phục vụ dự đoán cho các ứng dụng cuối được lưu trữ tại chỗ. Các nhóm phát triển ứng dụng có thể tích hợp các ứng dụng tại chỗ của họ để tương tác với mô hình ML thông qua các điểm cuối do SageMaker lưu trữ để nhận được kết quả suy luận. Các nhà phát triển ứng dụng có thể truy cập các mô hình đã triển khai thông qua các yêu cầu giao diện lập trình ứng dụng (API) với thời gian phản hồi thấp tới vài mili giây. Điều này hỗ trợ các trường hợp sử dụng yêu cầu phản hồi trong thời gian thực, chẳng hạn như các đề xuất sản phẩm được cá nhân hóa.

Ứng dụng khách tại cơ sở kết nối với mô hình ML được lưu trữ trên điểm cuối được lưu trữ trên SageMaker trên AWS qua mạng riêng sử dụng kết nối VPN hoặc Direct Connect, để cung cấp kết quả suy luận cho người dùng cuối của nó. Ứng dụng khách có thể sử dụng bất kỳ thư viện khách nào để gọi điểm cuối bằng cách sử dụng yêu cầu HTTP Post cùng với thông tin xác thực cần thiết được định cấu hình theo chương trình và tải trọng dự kiến. SageMaker cũng có các lệnh và thư viện tóm tắt một số chi tiết cấp thấp như xác thực bằng thông tin đăng nhập AWS được lưu trong môi trường ứng dụng khách của chúng tôi, chẳng hạn như SageMaker gọi điểm cuối lệnh thời gian chạy từ AWS CLI, ứng dụng khách thời gian chạy SageMaker từ boto3 (AWS SDK cho Python) và lớp Dự đoán từ SageMaker SDK Python.

Để làm cho điểm cuối có thể truy cập được qua internet, chúng tôi có thể sử dụng Cổng API Amazon. Mặc dù bạn có thể truy cập trực tiếp vào các điểm cuối được lưu trữ trên SageMaker từ API Gateway, nhưng một mẫu phổ biến mà bạn có thể sử dụng là thêm một AWS Lambda chức năng ở giữa. Bạn có thể sử dụng hàm Lambda cho bất kỳ quá trình tiền xử lý nào, có thể cần thiết để gửi yêu cầu ở định dạng mà điểm cuối mong đợi hoặc xử lý sau để chuyển đổi phản hồi thành định dạng mà ứng dụng khách yêu cầu. Để biết thêm thông tin, hãy xem Gọi điểm cuối của mô hình Amazon SageMaker bằng Amazon API Gateway và AWS Lambda.

Ứng dụng khách tại cơ sở kết nối với các mô hình ML được lưu trữ trên SageMaker trên AWS qua mạng riêng sử dụng kết nối VPN hoặc Direct Connect, để cung cấp kết quả suy luận cho người dùng cuối.

Sơ đồ sau minh họa cách nhóm khoa học dữ liệu phát triển mô hình ML, thực hiện đào tạo và triển khai mô hình được đào tạo trên đám mây, trong khi nhóm phát triển ứng dụng phát triển và triển khai ứng dụng web thương mại điện tử tại cơ sở.

Kiến trúc Deep Dive

Sau khi mô hình được triển khai vào môi trường sản xuất, các nhà khoa học dữ liệu của bạn có thể sử dụng Giám sát mô hình Amazon SageMaker để liên tục theo dõi chất lượng của các mô hình ML trong thời gian thực. Họ cũng có thể thiết lập hệ thống kích hoạt cảnh báo tự động khi xảy ra sai lệch về chất lượng mô hình, chẳng hạn như sự trôi dạt và bất thường về dữ liệu. Nhật ký Amazon CloudWatch thu thập các tệp nhật ký theo dõi trạng thái mô hình và thông báo cho bạn khi chất lượng của mô hình đạt đến ngưỡng nhất định. Điều này cho phép các nhà khoa học dữ liệu của bạn thực hiện các hành động khắc phục, chẳng hạn như đào tạo lại mô hình, kiểm tra hệ thống ngược dòng hoặc khắc phục các vấn đề về chất lượng mà không cần phải giám sát mô hình theo cách thủ công. Với Dịch vụ được quản lý của AWS, nhóm khoa học dữ liệu của bạn có thể tránh được những mặt trái của việc triển khai các giải pháp giám sát từ đầu.

Các nhà khoa học dữ liệu của bạn có thể giảm thời gian tổng thể cần thiết để triển khai các mô hình ML của họ trong sản xuất bằng cách tự động kiểm tra tải và điều chỉnh mô hình trên các phiên bản ML của SageMaker bằng cách sử dụng Người đề xuất suy luận của Amazon SageMaker. Nó giúp các nhà khoa học dữ liệu của bạn chọn loại phiên bản và cấu hình tốt nhất (chẳng hạn như số lượng phiên bản, thông số vùng chứa và tối ưu hóa mô hình) cho các mô hình ML của họ.

Cuối cùng, luôn là một phương pháp hay nhất để tách lưu trữ mô hình ML khỏi lưu trữ ứng dụng của bạn. Trong cách tiếp cận này, các nhà khoa học dữ liệu sử dụng các nguồn tài nguyên chuyên dụng để lưu trữ mô hình ML của họ, đặc biệt là các tài nguyên được tách biệt khỏi ứng dụng, điều này giúp đơn giản hóa đáng kể quy trình để đẩy các mô hình tốt hơn. Đây là một bước quan trọng trong bánh đà đổi mới. Điều này cũng ngăn chặn bất kỳ hình thức kết hợp chặt chẽ nào giữa mô hình ML được lưu trữ và ứng dụng, do đó cho phép mô hình có hiệu suất cao.

Ngoài việc cải thiện hiệu suất của mô hình với các xu hướng nghiên cứu cập nhật, cách tiếp cận này cung cấp khả năng triển khai lại một mô hình với dữ liệu cập nhật. Đại dịch COVID-19 toàn cầu đã chứng minh một thực tế rằng thị trường luôn thay đổi và mô hình ML cần phải cập nhật các xu hướng mới nhất. Cách duy nhất bạn có thể đáp ứng yêu cầu đó là có thể đào tạo lại và triển khai lại mô hình của mình với dữ liệu cập nhật.

Kết luận

Xem báo cáo chính thức Học máy kết hợp, trong đó chúng tôi xem xét các mẫu bổ sung để lưu trữ các mô hình ML thông qua Lambda @ Edge, Tiền đồn AWS, Khu AWS địa phươngBước sóng AWS. Chúng tôi khám phá các mẫu ML kết hợp trong toàn bộ vòng đời của ML. Chúng tôi xem xét việc phát triển cục bộ, đồng thời đào tạo và triển khai trên đám mây. Chúng tôi thảo luận về các mẫu đào tạo cục bộ để triển khai trên đám mây và thậm chí lưu trữ các mô hình ML trên đám mây để phục vụ các ứng dụng tại chỗ.

Bạn đang tích hợp đám mây với cơ sở hạ tầng ML tại chỗ hiện có của mình như thế nào? Vui lòng chia sẻ phản hồi của bạn về ML hybrid trong phần nhận xét để chúng tôi có thể tiếp tục cải thiện sản phẩm, tính năng và tài liệu của mình. Nếu bạn muốn thu hút các tác giả của tài liệu này để được tư vấn về việc di chuyển qua đám mây của mình, hãy liên hệ với chúng tôi theo địa chỉ hybrid-ml-support@amazon.com.


Về các tác giả

Alak Eswaradass là Kiến trúc sư Giải pháp tại AWS, có trụ sở tại Chicago, Illinois. Cô ấy đam mê giúp khách hàng thiết kế kiến ​​trúc đám mây bằng cách sử dụng các dịch vụ AWS để giải quyết các thách thức kinh doanh. Cô đi chơi với các con gái và khám phá các hoạt động ngoài trời khi rảnh rỗi.

Emily Webber đã tham gia AWS ngay sau khi SageMaker ra mắt và kể từ đó đã cố gắng nói cho cả thế giới biết về điều đó! Ngoài việc xây dựng trải nghiệm ML mới cho khách hàng, Emily thích thiền định và nghiên cứu Phật giáo Tây Tạng.

Bains Roop là Kiến trúc sư giải pháp tại AWS tập trung vào AI / ML. Anh ấy đam mê học máy và giúp khách hàng đạt được mục tiêu kinh doanh của họ. Khi rảnh rỗi, anh ấy thích đọc sách và đi bộ đường dài.

Nguồn: https://aws.amazon.com/blogs/machine-learning/introductioning-hybrid-machine-learning/

Dấu thời gian:

Thêm từ Blog Học máy AWS