Model pembelajaran mesin adalah alat canggih yang dapat membantu bisnis mengambil keputusan yang lebih tepat dan mengoptimalkan operasi mereka. Namun, saat model ini diterapkan dan dijalankan dalam produksi, model tersebut mengalami fenomena yang dikenal sebagai model drift.
Penyimpangan model terjadi ketika performa model pembelajaran mesin menurun seiring waktu karena perubahan pada data yang mendasarinya, sehingga menyebabkan prediksi yang tidak akurat dan potensi konsekuensi yang signifikan bagi bisnis. Untuk mengatasi tantangan ini, organisasi beralih ke MLOps, serangkaian praktik dan alat yang membantu mengelola siklus hidup pembelajaran mesin produksi.
In this article, we’ll explore model drift, the different types of it, how to detect it, and most importantly, how to handle it in production using MLOps. By understanding and managing model drift, businesses can ensure that their machine learning models remain accurate and effective over time, delivering the insights and outcomes that they need to thrive.
Foto oleh Nicolas Peyrol on Unsplash
Penyimpangan model, juga dikenal sebagai peluruhan model, adalah fenomena dalam pembelajaran mesin di mana performa model menurun seiring waktu. Artinya model secara bertahap akan mulai memberikan prediksi buruk yang akan menurunkan akurasi seiring berjalannya waktu.
Ada beberapa alasan berbeda untuk pergeseran model, seperti perubahan dalam pengumpulan data atau hubungan mendasar antar variabel. Oleh karena itu model akan gagal menangkap perubahan ini dan performa akan menurun seiring dengan meningkatnya perubahan.
Mendeteksi dan mengatasi penyimpangan model adalah salah satu tugas penting yang diselesaikan MLOps. Teknik seperti pemantauan model digunakan untuk mendeteksi keberadaan penyimpangan model dan pelatihan ulang model merupakan salah satu teknik utama yang digunakan untuk mengatasi penyimpangan model.
Memahami jenis penyimpangan model sangat penting untuk memperbarui model berdasarkan perubahan yang terjadi pada data. Ada tiga jenis penyimpangan utama:
Konsep Drift
Penyimpangan konsep terjadi ketika hubungan antara target dan masukan berubah. Oleh karena itu algoritma pembelajaran mesin tidak akan memberikan prediksi yang akurat. Ada empat jenis utama penyimpangan konsep:
- Tiba-tiba Melayang: Penyimpangan konsep secara tiba-tiba terjadi jika hubungan antara variabel bebas dan variabel terikat terjadi secara tiba-tiba. Contoh yang sangat terkenal adalah terjadinya pandemi covid 19 secara tiba-tiba. Terjadinya pandemi tiba-tiba mengubah hubungan antara variabel target dan fitur-fitur di berbagai bidang sehingga model prediktif yang dilatih berdasarkan data yang telah dilatih sebelumnya tidak akan dapat memprediksi secara akurat selama masa pandemi.
- Penyimpangan Bertahap: In a gradual concept drift, the relation between the input and the target may change slowly and subtly. This can result in a slow decline in the performance of a machine learning model, as the model becomes less accurate over time. An example of the gradual concept drift is fraudulent behavior. Fraudsters tend to understand how the fraud detection system works and change their behavior over time to escape the system. Therefore a machine learning model trained on historical fraudulent transaction data will not accurately predict the gradual changes in the fraudster’s behavior. For example, consider a machine learning model used for predicting stock prices in which the model is trained on data from the past five years and its performance is evaluated on new data from the current year. However, as time goes by, the market dynamics may change, and the relationship between the variables that influence stock prices may evolve gradually. This can result in incremental drift, where the model’s accuracy gradually deteriorates over time as it becomes less effective at capturing the changing relationship between the variables.
- Penyimpangan Tambahan: Penyimpangan bertahap terjadi ketika hubungan antara variabel target dan masukan berubah secara bertahap seiring waktu yang biasanya terjadi karena perubahan dalam proses menghasilkan data.
- Penyimpangan Berulang: Ini juga dikenal sebagai musiman. Contoh tipikalnya adalah peningkatan penjualan selama Natal atau Black Friday. Model pembelajaran mesin yang tidak memperhitungkan perubahan musiman ini secara tidak akurat akan menghasilkan prediksi yang tidak akurat untuk perubahan musiman ini.
Keempat jenis penyimpangan konsep tersebut ditunjukkan pada gambar di bawah ini.
Jenis konsep drift | Gambar dari Pembelajaran di bawah Konsep Drift: Sebuah Tinjauan.
Pergeseran Data
Penyimpangan data terjadi ketika sifat statistik dari data masukan berubah. Contohnya adalah perubahan distribusi usia pengguna aplikasi tertentu dari waktu ke waktu, oleh karena itu model yang dilatih tentang distribusi usia tertentu yang digunakan untuk strategi pemasaran harus diubah karena perubahan usia akan mempengaruhi strategi pemasaran.
Perubahan Data Hulu
Jenis penyimpangan yang ketiga adalah perubahan data upstream. Hal ini mengacu pada perubahan data operasional dalam pipeline data. Contoh umum dari hal ini adalah ketika fitur tertentu tidak lagi dihasilkan sehingga mengakibatkan nilai hilang. Contoh lainnya adalah perubahan satuan ukuran misalnya jika suatu sensor tertentu mengukur besaran dalam Celcius kemudian diubah menjadi Fahrenheit.
Mendeteksi penyimpangan model tidaklah mudah dan tidak ada metode universal untuk mendeteksinya. Namun, kami akan membahas beberapa metode populer untuk mendeteksinya:
- Tes Kolmogorov-Smirnov (tes KS): Uji KS merupakan uji nonparametrik untuk mendeteksi perubahan sebaran data. Ini digunakan untuk membandingkan data pelatihan dan data pasca pelatihan dan menemukan perubahan distribusi di antara keduanya. Hipotesis nol pada rangkaian pengujian ini menyatakan bahwa sebaran dari kedua dataset adalah sama sehingga jika hipotesis nol ditolak maka akan terjadi pergeseran model.
- Indeks Stabilitas Populasi (PSI): PSI merupakan ukuran statistik yang digunakan untuk mengukur kesamaan sebaran variabel kategori pada dua dataset yang berbeda. Oleh karena itu dapat digunakan untuk mengukur perubahan karakteristik variabel kategori pada dataset pelatihan dan pasca pelatihan.
- Metode Halaman-Hinkley: Page-Hinkely juga merupakan metode statistik yang digunakan untuk mengamati perubahan rata-rata data dari waktu ke waktu. Biasanya digunakan untuk mendeteksi perubahan kecil pada mean yang tidak terlihat saat melihat data.
- Pemantauan Kinerja: Salah satu metode terpenting untuk mendeteksi pergeseran konsep adalah memantau kinerja model pembelajaran mesin dalam produksi dan mengamati perubahannya dan jika melewati ambang batas tertentu kita dapat memicu tindakan tertentu untuk memperbaiki pergeseran konsep ini.
Menangani Drift dalam Produksi | Gambar oleh ijeab di Freepik.
Finally, let’s see how to handle the detected model drift in production. There is a wide spectrum of strategies used to handle the model drift depending on the type of drift, the data we are working on, and the project in production. Here is a summary of the popular methods that are used to handle model drift in production:
- Pembelajaran online: Karena sebagian besar aplikasi dunia nyata berjalan pada data streaming, pembelajaran online adalah salah satu metode umum yang digunakan untuk menangani penyimpangan tersebut. Dalam pembelajaran online, model diperbarui dengan cepat saat model menangani satu sampel dalam satu waktu.
- Pelatihan Ulang Model Secara Berkala: Setelah performa model berada di bawah ambang batas tertentu atau terjadi pergeseran data, pemicu dapat disetel untuk melatih ulang model dengan data terbaru.
- Latih Ulang Secara Berkala pada Subsampel yang Mewakili: Cara yang lebih efektif untuk menangani penyimpangan konsep adalah dengan memilih subsampel populasi yang representatif dan memberi label pada mereka menggunakan pakar manusia dan melatih ulang modelnya.
- Penurunan Fitur: Ini adalah metode sederhana namun efektif yang dapat digunakan untuk menangani penyimpangan konsep. Dengan menggunakan metode ini kita akan melatih beberapa model yang masing-masing menggunakan satu fitur dan untuk setiap model, respons AUC-ROC kemudian dipantau, dan jika nilai AUC-ROC melampaui ambang batas tertentu menggunakan fitur tertentu maka kita dapat menghapusnya sebagai ini mungkin ikut serta dalam drifting.
Referensi
Dalam artikel ini, kita membahas penyimpangan model, yaitu fenomena dalam pembelajaran mesin di mana performa model menurun seiring waktu karena perubahan data yang mendasarinya. Dunia usaha beralih ke MLOps, serangkaian praktik dan alat yang mengelola siklus hidup model pembelajaran mesin dalam produksi, untuk mengatasi tantangan ini.
Kami menguraikan berbagai jenis penyimpangan yang dapat terjadi, termasuk penyimpangan konsep, penyimpangan data, dan perubahan data hulu, serta cara mendeteksi penyimpangan model menggunakan metode seperti uji Kolmogorov-Smirnov, Indeks Stabilitas Populasi, dan metode Page-Hinkley. Terakhir, kami membahas teknik populer untuk menangani penyimpangan model dalam produksi termasuk pembelajaran online, pelatihan ulang model secara berkala, pelatihan ulang secara berkala pada subsampel yang representatif, dan penghapusan fitur.
Yusuf Rafaat adalah peneliti visi komputer & ilmuwan data. Penelitiannya berfokus pada pengembangan algoritme visi komputer real-time untuk aplikasi perawatan kesehatan. Dia juga bekerja sebagai ilmuwan data selama lebih dari 3 tahun di bidang pemasaran, keuangan, dan kesehatan.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
- Beli dan Jual Saham di Perusahaan PRE-IPO dengan PREIPO®. Akses Di Sini.
- Sumber: https://www.kdnuggets.com/2023/05/managing-model-drift-production-mlops.html?utm_source=rss&utm_medium=rss&utm_campaign=managing-model-drift-in-production-with-mlops
- :memiliki
- :adalah
- :bukan
- :Di mana
- $NAIK
- a
- Sanggup
- Akun
- ketepatan
- tepat
- akurat
- Tindakan
- alamat
- menangani
- mempengaruhi
- usia
- algoritma
- algoritma
- juga
- an
- dan
- Lain
- semu
- Aplikasi
- aplikasi
- ADALAH
- artikel
- AS
- At
- Buruk
- berdasarkan
- BE
- menjadi
- di bawah
- antara
- Luar
- Black
- Black Friday
- bisnis
- bisnis
- tapi
- by
- CAN
- Menangkap
- gulat
- Celsius
- tertentu
- menantang
- tantangan
- perubahan
- berubah
- Perubahan
- mengubah
- karakteristik
- hari Natal
- koleksi
- Umum
- membandingkan
- komputer
- Visi Komputer
- konsep
- Konsekuensi
- Mempertimbangkan
- benar
- bisa
- Jelas
- terbaru
- data
- ilmuwan data
- kumpulan data
- transaksi
- keputusan
- Tolak
- mengurangi
- mengantarkan
- tergantung
- Tergantung
- dikerahkan
- terdeteksi
- Deteksi
- berkembang
- berbeda
- membahas
- dibahas
- distribusi
- domain
- Menjatuhkan
- Jatuhan
- dua
- selama
- dinamika
- setiap
- Efektif
- akhir
- memastikan
- melarikan diri
- penting
- Eter (ETH)
- dievaluasi
- berkembang
- contoh
- ahli
- menyelidiki
- GAGAL
- Air terjun
- terkenal
- Fitur
- Fitur
- Fields
- Angka
- Akhirnya
- keuangan
- Menemukan
- berfokus
- Untuk
- empat
- penipuan
- deteksi penipuan
- penipu
- curang
- Jumat
- dari
- dihasilkan
- menghasilkan
- Memberikan
- Pergi
- bertahap
- bertahap
- menangani
- Memiliki
- he
- kesehatan
- membantu
- di sini
- -nya
- historis
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- Namun
- HTTPS
- manusia
- if
- gambar
- penting
- in
- tidak akurat
- Termasuk
- Meningkatkan
- independen
- indeks
- mempengaruhi
- informasi
- memasukkan
- wawasan
- ke
- IT
- NYA
- jpg
- KDnugget
- dikenal
- pelabelan
- terkemuka
- pengetahuan
- kurang
- siklus hidup
- ll
- lagi
- mencari
- mesin
- Mesin belajar
- Utama
- membuat
- mengelola
- pelaksana
- Pasar
- Marketing
- Strategi Pemasaran
- Mungkin..
- berarti
- cara
- mengukur
- pengukuran
- metode
- metode
- mungkin
- hilang
- MLOps
- model
- model
- dipantau
- pemantauan
- lebih
- paling
- beberapa
- Perlu
- New
- Nicolas
- tidak
- mengamati
- terjadi
- of
- on
- sekali
- ONE
- secara online
- Pembelajaran online
- operasional
- Operasi
- Optimize
- or
- organisasi
- hasil
- diuraikan
- lebih
- Mengatasi
- pandemi
- ikut
- tertentu
- lalu
- prestasi
- berkala
- gejala
- pipa saluran
- plato
- Kecerdasan Data Plato
- Data Plato
- Populer
- populasi
- berpotensi
- kuat
- praktek
- meramalkan
- memprediksi
- ramalan
- Prediksi
- kehadiran
- harga
- proses
- Produksi
- proyek
- properties
- memberikan
- menyediakan
- kuantitas
- dunia nyata
- real-time
- alasan
- baru
- mengacu
- hubungan
- hubungan
- Hubungan
- tinggal
- wakil
- penelitian
- peneliti
- tanggapan
- mengakibatkan
- dihasilkan
- pelatihan ulang
- Run
- s
- penjualan
- sama
- ilmuwan
- musiman
- melihat
- memilih
- set
- bergeser
- PERGESERAN
- ditunjukkan
- penting
- Sederhana
- sejak
- lambat
- Perlahan
- kecil
- So
- MEMECAHKAN
- beberapa
- tertentu
- Spektrum
- Stabilitas
- awal
- Negara
- statistik
- saham
- mudah
- strategi
- Streaming
- subyek
- seperti itu
- tiba-tiba
- RINGKASAN
- sistem
- target
- tugas
- teknik
- uji
- dari
- bahwa
- Grafik
- mereka
- Mereka
- kemudian
- Sana.
- karena itu
- Ini
- mereka
- Ketiga
- ini
- tiga
- ambang
- Berkembang
- waktu
- untuk
- alat
- Pelatihan VE
- terlatih
- Pelatihan
- .
- memicu
- Putar
- dua
- mengetik
- jenis
- khas
- bawah
- pokok
- memahami
- pemahaman
- satuan
- Universal
- Memperbarui
- diperbarui
- Data Hulu
- bekas
- Pengguna
- menggunakan
- biasanya
- nilai
- sangat
- penglihatan
- Cara..
- we
- ketika
- yang
- lebar
- akan
- dengan
- bekerja
- kerja
- bekerja
- tahun
- tahun
- zephyrnet.dll