Trôi dạt dữ liệu so với Trôi dạt khái niệm: Sự khác biệt là gì?

Trôi dạt dữ liệu so với Trôi dạt khái niệm: Sự khác biệt là gì?

Nút nguồn: 1936845

Độ lệch mô hình đề cập đến hiện tượng xảy ra khi hiệu suất của mô hình học máy giảm dần theo thời gian. Điều này xảy ra vì nhiều lý do, bao gồm thay đổi phân phối dữ liệu, thay đổi mục tiêu hoặc mục tiêu của mô hình hoặc thay đổi đối với môi trường mà mô hình đang hoạt động. Có hai chính các loại mô hình trôi dạt có thể xảy ra: trôi dạt dữ liệu và trôi dạt khái niệm.

Độ lệch dữ liệu đề cập đến sự phân phối thay đổi của dữ liệu mà mô hình được áp dụng. Khái niệm trôi dạt đề cập đến một mục tiêu hoặc mục tiêu cơ bản thay đổi cho mô hình. Cả sự trôi dạt dữ liệu và sự trôi dạt khái niệm đều có thể dẫn đến sự suy giảm hiệu suất của một học máy mô hình.

Độ lệch mô hình có thể là một vấn đề nghiêm trọng đối với các hệ thống máy học được triển khai trong môi trường thực, vì nó có thể dẫn đến các dự đoán hoặc quyết định không chính xác hoặc không đáng tin cậy. Để giải quyết vấn đề trôi dạt mô hình, điều quan trọng là phải liên tục theo dõi hiệu suất của các mô hình máy học theo thời gian và thực hiện các bước để ngăn chặn hoặc giảm thiểu nó, chẳng hạn như đào tạo lại mô hình trên dữ liệu mới hoặc điều chỉnh các tham số của mô hình. Các hệ thống giám sát và điều chỉnh này phải là một phần không thể thiếu của một hệ thống triển khai phần mềm cho các mô hình ML.

Khái niệm Drift so với Data Drift: Sự khác biệt là gì?

Trôi dữ liệu

Trôi dữ liệu, hoặc dịch chuyển đồng biến, đề cập đến hiện tượng phân phối dữ liệu đầu vào mà một Mô hình ML đã được đào tạo về sự khác biệt với việc phân phối dữ liệu đầu vào mà mô hình được áp dụng. Điều này có thể dẫn đến việc mô hình trở nên kém chính xác hoặc kém hiệu quả hơn trong việc đưa ra dự đoán hoặc quyết định.

Một biểu diễn toán học của dữ liệu trôi dạt có thể được thể hiện như sau:

P(x|y) ≠ P(x|y')

Trong đó P(x|y) đề cập đến phân phối xác suất của dữ liệu đầu vào (x) cho dữ liệu đầu ra (y) và P(x|y') là phân phối xác suất của dữ liệu đầu vào được cung cấp dữ liệu đầu ra cho dữ liệu mới mà mô hình được áp dụng (y').

Ví dụ: giả sử một mô hình ML được đào tạo dựa trên tập dữ liệu dữ liệu khách hàng từ một cửa hàng bán lẻ cụ thể và mô hình này được sử dụng để dự đoán liệu khách hàng có mua hàng hay không dựa trên độ tuổi, thu nhập và vị trí của họ. 

Nếu phân phối của dữ liệu đầu vào (tuổi, thu nhập và vị trí) cho dữ liệu mới được cung cấp cho mô hình khác đáng kể so với phân phối của dữ liệu đầu vào trong tập dữ liệu huấn luyện, thì điều này có thể dẫn đến dữ liệu bị trôi và khiến mô hình trở nên kém chính xác hơn.

Vượt qua sự trôi dạt dữ liệu

Một cách để khắc phục sự trôi dạt dữ liệu là sử dụng các kỹ thuật như trọng số hoặc lấy mẫu để điều chỉnh sự khác biệt trong phân phối dữ liệu. Ví dụ: bạn có thể cân nhắc các ví dụ trong tập dữ liệu huấn luyện để khớp chặt chẽ hơn với phân phối dữ liệu đầu vào cho dữ liệu mới mà mô hình sẽ được áp dụng. 

Ngoài ra, bạn có thể lấy mẫu từ dữ liệu mới và dữ liệu đào tạo để tạo tập dữ liệu cân bằng để đào tạo mô hình. Một cách tiếp cận khác là sử dụng các kỹ thuật thích ứng miền, nhằm mục đích thích ứng mô hình với phân phối dữ liệu mới bằng cách tìm hiểu ánh xạ giữa miền nguồn (dữ liệu đào tạo) và miền đích (dữ liệu mới). Một cách để đạt được điều này là sử dụng tạo dữ liệu tổng hợp các thuật toán.

Khái niệm Drift

Sự trôi dạt khái niệm xảy ra khi có sự thay đổi trong mối quan hệ chức năng giữa dữ liệu đầu vào và đầu ra của mô hình. Mô hình tiếp tục hoạt động như cũ mặc dù bối cảnh đã thay đổi, không biết về những thay đổi. Do đó, các mẫu mà nó đã học được trong quá trình đào tạo không còn chính xác nữa.

Độ lệch khái niệm đôi khi còn được gọi là độ lệch lớp hoặc độ lệch xác suất sau. Điều này là do nó đề cập đến những thay đổi về xác suất giữa các tình huống khác nhau:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Loại trôi dạt này là do các quá trình hoặc sự kiện bên ngoài gây ra. Chẳng hạn, bạn có thể có một mô hình dự đoán chi phí sinh hoạt dựa trên vị trí địa lý, với các khu vực khác nhau làm đầu vào. Tuy nhiên, mức độ phát triển của từng khu vực có thể tăng hoặc giảm làm thay đổi giá cả sinh hoạt trong thế giới thực. Do đó, mô hình mất khả năng đưa ra dự đoán chính xác. 

Ý nghĩa ban đầu của “trôi dạt khái niệm” là sự thay đổi trong cách chúng ta hiểu các nhãn cụ thể. Một ví dụ là những gì chúng tôi gắn nhãn là "thư rác" trong email. Các mẫu như gửi email hàng loạt, thường xuyên từng được coi là dấu hiệu của thư rác, nhưng ngày nay điều này không phải lúc nào cũng đúng. Các công cụ phát hiện thư rác vẫn sử dụng các thuộc tính lỗi thời này sẽ kém hiệu quả hơn khi xác định thư rác vì chúng có khái niệm trôi dạt và yêu cầu đào tạo lại.

Dưới đây là những ví dụ khác về khái niệm trôi dạt:

  • Tác động của những thay đổi đối với mã số thuế đối với mô hình dự đoán tuân thủ thuế
  • Tác động của việc phát triển hành vi của khách hàng đối với một mô hình dự đoán doanh số bán sản phẩm
  • Tác động của khủng hoảng tài chính đối với dự đoán lợi nhuận của công ty

Khái niệm Drift so với Data Drift

Với dữ liệu trôi dạt, ranh giới quyết định không thay đổi; chỉ phân phối xác suất của các yếu tố đầu vào thay đổi – P(x). Với khái niệm trôi dạt, ranh giới quyết định thay đổi, với cả phân phối đầu vào và đầu ra thay đổi – P(x) và P(y). 

Một điểm khác biệt quan trọng khác là độ lệch dữ liệu chủ yếu là kết quả của các yếu tố bên trong, chẳng hạn như thu thập, xử lý và đào tạo dữ liệu. Khái niệm trôi dạt thường là kết quả của các yếu tố bên ngoài, chẳng hạn như tình hình trong thế giới thực.

Các chiến lược để phát hiện và khắc phục sự trôi dạt về dữ liệu và khái niệm

Có một số chiến lược có thể giúp phát hiện và khắc phục sự trôi dạt của mô hình trong hệ thống máy học:

  • Giám sát hiệu suất: Thường xuyên đánh giá hiệu suất của mô hình ML trên tập dữ liệu lưu giữ hoặc trong sản xuất có thể giúp xác định bất kỳ sự suy giảm nào về độ chính xác hoặc các chỉ số khác có thể cho thấy mô hình bị lệch.
  • Các thuật toán phát hiện trôi dạt dữ liệu và khái niệm: Có các thuật toán được thiết kế đặc biệt để phát hiện sự trôi dạt dữ liệu, chẳng hạn như phép thử Page-Hinkley hoặc phép thử Kolmogorov-Smirnov, cũng như các thuật toán phát hiện sự trôi dạt khái niệm, chẳng hạn như thuật toán ADWIN. Các thuật toán này có thể tự động xác định các thay đổi trong dữ liệu đầu vào hoặc tác vụ có thể cho thấy sự trôi dạt của mô hình.
  • Kỹ thuật ngăn chặn trôi dạt dữ liệu và khái niệm: Những kỹ thuật này có thể giúp ngăn chặn sự trôi dạt dữ liệu hoặc khái niệm xảy ra ngay từ đầu. Ví dụ: sử dụng tính năng tăng cường dữ liệu hoặc tạo dữ liệu tổng hợp có thể giúp đảm bảo rằng mô hình ML tiếp xúc với nhiều loại dữ liệu đại diện, có thể giúp mô hình linh hoạt hơn trước những thay đổi trong phân phối dữ liệu. Tương tự, sử dụng học chuyển đổi hoặc học đa nhiệm có thể giúp mô hình thích ứng với nhiệm vụ hoặc mục tiêu thay đổi.
  • Đào tạo lại và tinh chỉnh: Nếu mô hình trôi dạt được phát hiện, đào tạo lại hoặc tinh chỉnh mô hình trên dữ liệu mới có thể giúp khắc phục nó. Điều này có thể được thực hiện định kỳ hoặc để đáp ứng với những thay đổi quan trọng trong dữ liệu hoặc tác vụ.

Bằng cách thường xuyên theo dõi sự trôi dạt của mô hình và thực hiện các bước chủ động để ngăn chặn hoặc giảm thiểu nó, có thể duy trì độ chính xác và độ tin cậy của các mô hình máy học theo thời gian.

Kết luận

Tóm lại, trôi dạt dữ liệu và trôi dạt mô hình là hai hiện tượng quan trọng có thể ảnh hưởng đến hiệu suất của các mô hình học máy (ML). 

Độ lệch dữ liệu, còn được gọi là dịch chuyển đồng biến, xảy ra khi phân phối dữ liệu đầu vào mà mô hình ML được đào tạo khác với phân phối dữ liệu đầu vào mà mô hình được áp dụng. Độ lệch mô hình, còn được gọi là độ lệch khái niệm, xảy ra khi các thuộc tính thống kê của dữ liệu mà mô hình ML được đào tạo thay đổi theo thời gian. 

Cả độ lệch dữ liệu và độ lệch mô hình đều có thể dẫn đến việc mô hình trở nên kém chính xác hoặc kém hiệu quả hơn trong việc đưa ra dự đoán hoặc quyết định và điều quan trọng là phải hiểu và giải quyết các hiện tượng này để duy trì hiệu suất của mô hình ML theo thời gian. 

Có nhiều kỹ thuật khác nhau có thể được sử dụng để khắc phục độ lệch dữ liệu và độ lệch mô hình, bao gồm đào tạo lại mô hình trên dữ liệu cập nhật, sử dụng học trực tuyến hoặc học thích ứng và theo dõi hiệu suất của mô hình theo thời gian.

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU