Các mô hình máy học là công cụ mạnh mẽ có thể giúp doanh nghiệp đưa ra quyết định sáng suốt hơn và tối ưu hóa hoạt động của họ. Tuy nhiên, khi các mô hình này được triển khai và chạy trong sản xuất, chúng phải chịu một hiện tượng được gọi là trôi dạt mô hình.
Độ lệch mô hình xảy ra khi hiệu suất của mô hình máy học suy giảm theo thời gian do dữ liệu cơ bản thay đổi, dẫn đến dự đoán không chính xác và có thể gây hậu quả nghiêm trọng cho doanh nghiệp. Để giải quyết thách thức này, các tổ chức đang chuyển sang MLOps, một tập hợp các phương pháp và công cụ giúp quản lý vòng đời của máy học sản xuất.
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
Photo by Nicolas Peyrol on Unsplash
Độ lệch mô hình, còn được gọi là phân rã mô hình, là một hiện tượng trong học máy, trong đó hiệu suất của mô hình giảm dần theo thời gian. Điều này có nghĩa là mô hình sẽ dần bắt đầu đưa ra những dự đoán xấu làm giảm độ chính xác theo thời gian.
Có nhiều lý do khác nhau để thay đổi mô hình, chẳng hạn như thay đổi trong việc thu thập dữ liệu hoặc mối quan hệ cơ bản giữa các biến. Do đó, mô hình sẽ không nắm bắt được những thay đổi này và hiệu suất sẽ giảm khi các thay đổi tăng lên.
Phát hiện và giải quyết sự trôi dạt của mô hình là một trong những nhiệm vụ thiết yếu mà MLOps giải quyết. Các kỹ thuật như giám sát mô hình được sử dụng để phát hiện sự hiện diện của sự trôi dạt mô hình và đào tạo lại mô hình là một trong những kỹ thuật chính được sử dụng để khắc phục sự trôi dạt mô hình.
Hiểu loại trôi mô hình là điều cần thiết để cập nhật mô hình dựa trên những thay đổi xảy ra trong dữ liệu. Có ba loại trôi dạt chính:
Khái niệm Drift
Sự trôi dạt khái niệm xảy ra khi mối quan hệ giữa mục tiêu và đầu vào thay đổi. Do đó, thuật toán học máy sẽ không đưa ra dự đoán chính xác. Có bốn loại khái niệm trôi dạt chính:
- Trôi bất ngờ: Sự trôi dạt khái niệm đột ngột xảy ra nếu mối quan hệ giữa các biến độc lập và biến phụ thuộc xảy ra đột ngột. Một ví dụ rất nổi tiếng là sự xuất hiện đột ngột của đại dịch covid 19. Sự xuất hiện của đại dịch đã làm thay đổi đột ngột mối quan hệ giữa biến mục tiêu và các đặc điểm trong các lĩnh vực khác nhau nên một mô hình dự đoán được đào tạo dựa trên dữ liệu được đào tạo trước sẽ không thể dự đoán chính xác trong thời gian xảy ra đại dịch.
- dần trôi: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- Trôi tăng dần: Độ lệch tăng dần xảy ra khi mối quan hệ giữa biến mục tiêu và đầu vào thay đổi dần theo thời gian, điều này thường xảy ra do những thay đổi trong quy trình tạo dữ liệu.
- Trôi định kỳ: Điều này còn được gọi là tính thời vụ. Một ví dụ điển hình là sự gia tăng doanh số bán hàng trong dịp Giáng sinh hoặc Thứ Sáu Đen. Một mô hình máy học sẽ không tính đến những thay đổi theo mùa này không chính xác sẽ đưa ra những dự đoán không chính xác cho những thay đổi theo mùa này.
Bốn loại trôi dạt khái niệm này được thể hiện trong hình bên dưới.
Các dạng trôi dạt khái niệm | Hình ảnh từ Học theo Concept Drift: Đánh giá.
Trôi dữ liệu
Trôi dạt dữ liệu xảy ra khi các thuộc tính thống kê của dữ liệu đầu vào thay đổi. Một ví dụ về điều này là sự thay đổi về phân bổ độ tuổi của người dùng của một ứng dụng nhất định theo thời gian, do đó, một mô hình được đào tạo về phân bổ độ tuổi cụ thể được sử dụng cho các chiến lược tiếp thị sẽ phải được thay đổi vì sự thay đổi về độ tuổi sẽ ảnh hưởng đến chiến lược tiếp thị.
Thay đổi dữ liệu ngược dòng
Loại trôi thứ ba là dữ liệu ngược dòng thay đổi. Điều này đề cập đến những thay đổi dữ liệu hoạt động trong đường ống dữ liệu. Một ví dụ điển hình của điều này là khi một tính năng cụ thể không còn được tạo ra dẫn đến giá trị bị thiếu. Một ví dụ khác là thay đổi đơn vị đo chẳng hạn nếu một cảm biến nhất định đo đại lượng bằng độ C và sau đó đổi thành độ F.
Việc phát hiện sự trôi dạt của mô hình không đơn giản và không có phương pháp phổ biến nào để phát hiện ra nó. Tuy nhiên, chúng tôi sẽ thảo luận về một số phương pháp phổ biến để phát hiện nó:
- Thử nghiệm Kolmogorov-Smirnov (kiểm tra KS): Kiểm định KS là một kiểm định phi tham số để phát hiện sự thay đổi trong phân phối dữ liệu. Nó được sử dụng để so sánh dữ liệu đào tạo và dữ liệu sau đào tạo và tìm ra sự thay đổi phân phối giữa chúng. Giả thuyết không đối với tập kiểm tra này nói rằng phân phối từ hai bộ dữ liệu là như nhau, vì vậy nếu giả thuyết không bị bác bỏ, do đó sẽ có sự thay đổi mô hình.
- Chỉ số ổn định dân số (PSI): PSI là một phép đo thống kê được sử dụng để đo mức độ giống nhau trong phân phối của các biến phân loại trong hai bộ dữ liệu khác nhau. Do đó, nó có thể được sử dụng để đo lường sự thay đổi về đặc điểm của các biến phân loại trong tập dữ liệu huấn luyện và sau huấn luyện.
- Phương pháp Trang-Hinkley: Page-Hinkely cũng là một phương pháp thống kê được sử dụng để quan sát những thay đổi về giá trị trung bình của dữ liệu theo thời gian. Nó thường được sử dụng để phát hiện những thay đổi nhỏ trong giá trị trung bình không rõ ràng khi xem dữ liệu.
- Giám sát hiệu suất: Một trong những phương pháp quan trọng nhất để phát hiện sự thay đổi khái niệm là theo dõi hiệu suất của mô hình máy học trong sản xuất và quan sát sự thay đổi của nó và nếu nó vượt qua một ngưỡng nhất định, chúng tôi có thể kích hoạt một hành động nhất định để điều chỉnh sự thay đổi khái niệm này.
Xử Lý Trôi Trong Sản Xuất | Hình ảnh của ijab trên Freepik.
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- Học Hỏi Trên Mạng: Vì hầu hết các ứng dụng trong thế giới thực chạy trên dữ liệu truyền trực tuyến, học trực tuyến là một trong những phương pháp phổ biến được sử dụng để xử lý sự trôi dạt. Trong học tập trực tuyến, mô hình được cập nhật nhanh chóng khi mô hình xử lý một mẫu tại một thời điểm.
- Đào tạo lại mô hình định kỳ: Khi hiệu suất của mô hình giảm xuống dưới một ngưỡng nhất định hoặc quan sát thấy sự thay đổi dữ liệu, có thể đặt trình kích hoạt để đào tạo lại mô hình với dữ liệu gần đây.
- Đào tạo lại định kỳ trên một mẫu phụ đại diện: Một cách hiệu quả hơn để xử lý sự trôi dạt khái niệm là chọn một mẫu con đại diện của dân số và gắn nhãn chúng bằng cách sử dụng các chuyên gia con người và đào tạo lại mô hình trên chúng.
- Giảm tính năng: Đây là một phương pháp đơn giản nhưng hiệu quả có thể được sử dụng để xử lý sự trôi dạt khái niệm. Sử dụng phương pháp này, chúng tôi sẽ đào tạo nhiều mô hình, mỗi mô hình sử dụng một tính năng và đối với từng mô hình, phản hồi AUC-ROC sau đó sẽ được theo dõi và nếu giá trị của AUC-ROC vượt quá một ngưỡng nhất định bằng một tính năng cụ thể thì chúng tôi có thể loại bỏ nó dưới dạng điều này có thể tham gia vào trôi dạt.
dự án
Trong bài viết này, chúng ta đã thảo luận về sự trôi dạt của mô hình, đó là hiện tượng trong học máy khi hiệu suất của một mô hình suy giảm theo thời gian do những thay đổi trong dữ liệu cơ bản. Các doanh nghiệp đang chuyển sang MLOps, một tập hợp các phương pháp và công cụ quản lý vòng đời của các mô hình máy học trong sản xuất, để vượt qua những thách thức này.
Chúng tôi đã phác thảo các loại trôi dạt khác nhau có thể xảy ra, bao gồm trôi dạt khái niệm, trôi dạt dữ liệu và thay đổi dữ liệu ngược dòng cũng như cách phát hiện sai lệch mô hình bằng các phương pháp như thử nghiệm Kolmogorov-Smirnov, Chỉ số ổn định dân số và phương pháp Page-Hinkley. Cuối cùng, chúng tôi đã thảo luận về các kỹ thuật phổ biến để xử lý sự trôi dạt của mô hình trong quá trình sản xuất, bao gồm học trực tuyến, đào tạo lại mô hình định kỳ, đào tạo lại định kỳ trên một mẫu phụ đại diện và loại bỏ tính năng.
Youssef Rafaat là một nhà nghiên cứu thị giác máy tính và nhà khoa học dữ liệu. Nghiên cứu của ông tập trung vào việc phát triển các thuật toán thị giác máy tính thời gian thực cho các ứng dụng chăm sóc sức khỏe. Anh ấy cũng đã làm việc với tư cách là nhà khoa học dữ liệu trong hơn 3 năm trong lĩnh vực tiếp thị, tài chính và chăm sóc sức khỏe.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Đúc kết tương lai với Adryenn Ashley. Truy cập Tại đây.
- Mua và bán cổ phần trong các công ty PRE-IPO với PREIPO®. Truy cập Tại đây.
- nguồn: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- : có
- :là
- :không phải
- :Ở đâu
- $ LÊN
- a
- Có khả năng
- Tài khoản
- chính xác
- chính xác
- chính xác
- Hoạt động
- địa chỉ
- giải quyết
- ảnh hưởng đến
- tuổi
- thuật toán
- thuật toán
- Ngoài ra
- an
- và
- Một
- rõ ràng
- Các Ứng Dụng
- các ứng dụng
- LÀ
- bài viết
- AS
- At
- Bad
- dựa
- BE
- trở thành
- phía dưới
- giữa
- Ngoài
- Đen
- Black Friday
- kinh doanh
- các doanh nghiệp
- nhưng
- by
- CAN
- Chụp
- Catch
- C.
- nhất định
- thách thức
- thách thức
- thay đổi
- thay đổi
- Những thay đổi
- thay đổi
- đặc điểm
- Giáng Sinh
- bộ sưu tập
- Chung
- so sánh
- máy tính
- Tầm nhìn máy tính
- khái niệm
- Hậu quả
- Hãy xem xét
- sửa chữa
- có thể
- Covidien
- Current
- dữ liệu
- nhà khoa học dữ liệu
- bộ dữ liệu
- nhiều
- quyết định
- Từ chối
- giảm
- phân phối
- phụ thuộc
- Tùy
- triển khai
- phát hiện
- Phát hiện
- phát triển
- khác nhau
- thảo luận
- thảo luận
- phân phối
- miền
- Rơi
- Rơi
- hai
- suốt trong
- động lực
- mỗi
- Hiệu quả
- cuối
- đảm bảo
- thoát
- thiết yếu
- Ether (ETH)
- đánh giá
- phát triển
- ví dụ
- các chuyên gia
- khám phá
- FAIL
- Ngã
- nổi tiếng
- Đặc tính
- Tính năng
- Lĩnh vực
- Hình
- Cuối cùng
- tài chính
- Tìm kiếm
- tập trung
- Trong
- 4
- gian lận
- phát hiện gian lận
- kẻ lừa đảo
- lừa đảo
- Thứ Sáu
- từ
- tạo ra
- tạo ra
- Cho
- Đi
- dần dần
- dần dần
- xử lý
- Có
- he
- chăm sóc sức khỏe
- giúp đỡ
- tại đây
- của mình
- lịch sử
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTTPS
- Nhân loại
- if
- hình ảnh
- quan trọng
- in
- không chính xác
- Bao gồm
- Tăng lên
- độc lập
- chỉ số
- ảnh hưởng
- thông báo
- đầu vào
- những hiểu biết
- trong
- IT
- ITS
- jpg
- Xe đẩy
- nổi tiếng
- ghi nhãn
- hàng đầu
- học tập
- ít
- vòng đời
- ll
- còn
- tìm kiếm
- máy
- học máy
- Chủ yếu
- làm cho
- quản lý
- quản lý
- thị trường
- Marketing
- Chiến lược tiếp thị
- Có thể..
- nghĩa là
- có nghĩa
- đo
- đo lường
- phương pháp
- phương pháp
- Might
- mất tích
- MLOps
- kiểu mẫu
- mô hình
- theo dõi
- giám sát
- chi tiết
- hầu hết
- nhiều
- Cần
- Mới
- Nicolas
- Không
- tuân theo
- xảy ra
- of
- on
- hàng loạt
- ONE
- Trực tuyến
- Học Hỏi Trên Mạng
- hoạt động
- Hoạt động
- Tối ưu hóa
- or
- tổ chức
- kết quả
- nêu
- kết thúc
- Vượt qua
- đại dịch
- tham gia
- riêng
- qua
- hiệu suất
- định kỳ
- hiện tượng
- đường ống dẫn
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Phổ biến
- dân số
- có khả năng
- mạnh mẽ
- thực hành
- dự đoán
- dự đoán
- dự đoán
- Dự đoán
- sự hiện diện
- Giá
- quá trình
- Sản lượng
- dự án
- tài sản
- cho
- cung cấp
- số lượng, lượng
- thế giới thực
- thời gian thực
- lý do
- gần đây
- đề cập
- mối quan hệ
- mối quan hệ
- Mối quan hệ
- vẫn
- đại diện
- nghiên cứu
- nhà nghiên cứu
- phản ứng
- kết quả
- kết quả
- đào tạo lại
- chạy
- s
- bán hàng
- tương tự
- Nhà khoa học
- theo mùa
- xem
- lựa chọn
- định
- thay đổi
- VẬN CHUYỂN
- thể hiện
- có ý nghĩa
- Đơn giản
- kể từ khi
- chậm
- chậm rãi
- nhỏ
- So
- động SOLVE
- một số
- riêng
- quang phổ
- Tính ổn định
- Bắt đầu
- Bang
- thống kê
- cổ phần
- đơn giản
- chiến lược
- trực tuyến
- Tiêu đề
- như vậy
- đột ngột
- TÓM TẮT
- hệ thống
- Mục tiêu
- nhiệm vụ
- kỹ thuật
- thử nghiệm
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- sau đó
- Đó
- vì thế
- Kia là
- họ
- Thứ ba
- điều này
- số ba
- ngưỡng
- Phát triển mạnh
- thời gian
- đến
- công cụ
- Train
- đào tạo
- Hội thảo
- giao dịch
- kích hoạt
- Quay
- hai
- kiểu
- loại
- điển hình
- Dưới
- cơ bản
- hiểu
- sự hiểu biết
- đơn vị
- phổ cập
- Cập nhật
- cập nhật
- Dữ liệu thượng nguồn
- đã sử dụng
- người sử dang
- sử dụng
- thường
- giá trị
- rất
- tầm nhìn
- Đường..
- we
- khi nào
- cái nào
- rộng
- sẽ
- với
- làm việc
- đang làm việc
- công trinh
- năm
- năm
- zephyrnet