Pergeseran Data vs Pergeseran Konsep: Apa Perbedaannya?

Pergeseran Data vs Pergeseran Konsep: Apa Perbedaannya?

Node Sumber: 1936845

Penyimpangan model mengacu pada fenomena yang terjadi ketika kinerja model pembelajaran mesin menurun seiring waktu. Hal ini terjadi karena berbagai alasan, termasuk perubahan distribusi data, perubahan sasaran atau tujuan model, atau perubahan lingkungan tempat model beroperasi. Ada dua utama jenis penyimpangan model yang dapat terjadi: penyimpangan data dan penyimpangan konsep.

Penyimpangan data mengacu pada perubahan distribusi data yang diterapkan model. Penyimpangan konsep mengacu pada tujuan atau sasaran dasar yang berubah untuk model. Drift data dan drift konsep dapat menyebabkan penurunan performa a Mesin belajar Model.

Penyimpangan model dapat menjadi masalah yang signifikan untuk sistem pembelajaran mesin yang digunakan dalam pengaturan dunia nyata, karena dapat menyebabkan prediksi atau keputusan yang tidak akurat atau tidak dapat diandalkan. Untuk mengatasi penyimpangan model, penting untuk terus memantau kinerja model pembelajaran mesin dari waktu ke waktu dan mengambil langkah-langkah untuk mencegah atau menguranginya, seperti melatih ulang model pada data baru atau menyesuaikan parameter model. Sistem pemantauan dan penyesuaian ini harus menjadi bagian integral dari a sistem penyebaran perangkat lunak untuk model ML.

Drift Konsep vs. Drift Data: Apa Bedanya?

Pergeseran Data

Penyimpangan data, atau pergeseran kovariat, mengacu pada fenomena di mana distribusi input data yang model ML dilatih berbeda dari distribusi input data tempat model diterapkan. Hal ini dapat mengakibatkan model menjadi kurang akurat atau efektif dalam membuat prediksi atau keputusan.

Representasi matematis dari penyimpangan data dapat dinyatakan sebagai berikut:

P(x|y) ≠ P(x|y')

Dimana P(x|y) mengacu pada distribusi probabilitas data input (x) mengingat data output (y), dan P(x|y') adalah distribusi probabilitas dari data input mengingat data output untuk data baru ke mana model tersebut diterapkan (y').

Misalnya, model ML dilatih pada kumpulan data pelanggan dari toko retail tertentu, dan model tersebut digunakan untuk memprediksi apakah pelanggan akan melakukan pembelian berdasarkan usia, pendapatan, dan lokasi mereka. 

Jika distribusi data masukan (usia, pendapatan, dan lokasi) untuk data baru yang dimasukkan ke model berbeda secara signifikan dari distribusi data masukan dalam kumpulan data pelatihan, hal ini dapat menyebabkan penyimpangan data dan mengakibatkan model menjadi kurang akurat.

Mengatasi Data Drift

Salah satu cara untuk mengatasi penyimpangan data adalah dengan menggunakan teknik seperti pembobotan atau pengambilan sampel untuk menyesuaikan perbedaan dalam distribusi data. Misalnya, Anda mungkin memberi bobot pada contoh dalam kumpulan data pelatihan agar lebih cocok dengan distribusi data input untuk data baru yang akan diterapkan model. 

Alternatifnya, Anda dapat mengambil sampel dari data baru dan data pelatihan untuk membuat kumpulan data yang seimbang untuk melatih model. Pendekatan lain adalah dengan menggunakan teknik adaptasi domain, yang bertujuan untuk menyesuaikan model dengan distribusi data baru dengan mempelajari pemetaan antara domain sumber (data pelatihan) dan domain target (data baru). Salah satu cara untuk mencapai ini adalah dengan menggunakan pembuatan data sintetis algoritma.

Konsep Drift

Penyimpangan konsep terjadi ketika ada perubahan dalam hubungan fungsional antara data input dan output model. Model terus berfungsi sama meskipun konteksnya berubah, tidak menyadari perubahannya. Dengan demikian, pola yang dipelajarinya selama pelatihan tidak lagi akurat.

Penyimpangan konsep juga terkadang disebut penyimpangan kelas atau pergeseran probabilitas posterior. Ini karena mengacu pada perubahan probabilitas antara situasi yang berbeda:

Pt1 (Y|X) ≠ Pt2 (Y|X)

Jenis penyimpangan ini disebabkan oleh proses atau peristiwa eksternal. Misalnya, Anda mungkin memiliki model yang memprediksi biaya hidup berdasarkan lokasi geografis, dengan wilayah yang berbeda sebagai masukan. Namun, tingkat perkembangan setiap daerah dapat meningkat atau menurun, mengubah biaya hidup di dunia nyata. Dengan demikian, model kehilangan kemampuan untuk membuat prediksi yang akurat. 

Arti asli dari "pergeseran konsep" adalah perubahan dalam cara kita memahami label tertentu. Salah satu contohnya adalah apa yang kami beri label sebagai "spam" di email. Pola seperti sering, email massal pernah dianggap sebagai tanda spam, tetapi hal ini tidak selalu terjadi saat ini. Pendeteksi spam yang masih menggunakan atribut usang tersebut akan kurang efektif dalam mengidentifikasi spam karena memiliki konsep yang menyimpang dan memerlukan pelatihan ulang.

Berikut adalah lebih banyak contoh penyimpangan konsep:

  • Dampak perubahan kode pajak pada model yang memprediksi kepatuhan pajak
  • Dampak perubahan perilaku pelanggan pada model yang memprediksi penjualan produk
  • Dampak krisis keuangan terhadap prediksi keuntungan perusahaan

Pergeseran Konsep vs. Pergeseran Data

Dengan pergeseran data, batas keputusan tidak berubah; hanya distribusi probabilitas input yang berubah – P(x). Dengan penyimpangan konsep, batas keputusan berubah, dengan distribusi input dan output berubah – P(x) dan P(y). 

Perbedaan penting lainnya adalah penyimpangan data terutama merupakan hasil dari faktor internal, seperti pengumpulan, pemrosesan, dan pelatihan data. Penyimpangan konsep biasanya dihasilkan dari faktor eksternal, seperti situasi di dunia nyata.

Strategi Mendeteksi dan Mengatasi Data dan Konsep Drift

Ada beberapa strategi yang dapat membantu mendeteksi dan mengatasi penyimpangan model dalam sistem pembelajaran mesin:

  • Pemantauan kinerja: Mengevaluasi performa model ML secara rutin pada set data holdout atau dalam produksi dapat membantu mengidentifikasi penurunan akurasi atau metrik lain yang mungkin mengindikasikan penyimpangan model.
  • Algoritma pendeteksian penyimpangan data dan konsep: Ada algoritme yang dirancang khusus untuk mendeteksi penyimpangan data, seperti uji Page-Hinkley atau uji Kolmogorov-Smirnov, serta algoritme yang mendeteksi penyimpangan konsep, seperti algoritme ADWIN. Algoritme ini dapat secara otomatis mengidentifikasi perubahan dalam data masukan atau tugas yang mungkin mengindikasikan pergeseran model.
  • Teknik pencegahan pergeseran data dan konsep: Teknik-teknik ini dapat membantu mencegah terjadinya penyimpangan data atau konsep sejak awal. Misalnya, menggunakan augmentasi data atau pembuatan data sintetik dapat membantu memastikan bahwa model ML memiliki eksposur ke rentang data yang luas dan representatif, yang membuatnya lebih tahan terhadap perubahan dalam distribusi data. Demikian pula, menggunakan transfer learning atau multitask learning dapat membantu model beradaptasi dengan perubahan tugas atau tujuan.
  • Pelatihan ulang dan penyempurnaan: Jika penyimpangan model terdeteksi, pelatihan ulang atau penyempurnaan model pada data baru dapat membantu mengatasinya. Ini dapat dilakukan secara berkala, atau sebagai respons terhadap perubahan signifikan dalam data atau tugas.

Dengan memantau penyimpangan model secara teratur dan mengambil langkah proaktif untuk mencegah atau menguranginya, akurasi dan keandalan model pembelajaran mesin dapat dipertahankan dari waktu ke waktu.

Kesimpulan

Kesimpulannya, penyimpangan data dan penyimpangan model adalah dua fenomena penting yang dapat memengaruhi kinerja model pembelajaran mesin (ML). 

Penyimpangan data, juga dikenal sebagai pergeseran kovariat, terjadi ketika distribusi data input yang dilatih model ML berbeda dari distribusi data input yang digunakan model tersebut. Penyimpangan model, juga dikenal sebagai penyimpangan konsep, terjadi ketika properti statistik dari data yang dilatih model ML berubah dari waktu ke waktu. 

Penyimpangan data dan penyimpangan model dapat menyebabkan model menjadi kurang akurat atau efektif dalam membuat prediksi atau keputusan, dan penting untuk memahami dan mengatasi fenomena ini untuk mempertahankan kinerja model ML dari waktu ke waktu. 

Ada berbagai teknik yang dapat digunakan untuk mengatasi penyimpangan data dan penyimpangan model, antara lain melatih kembali model pada data yang diperbarui, menggunakan pembelajaran online atau pembelajaran adaptif, dan memantau kinerja model dari waktu ke waktu.

Stempel Waktu:

Lebih dari DATAVERSITAS