5 Alasan Mengapa Anda Membutuhkan Data Sintetis

Diterbitkan Ulang Oleh Plato

Followers: 0

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Data sintetis dihasilkan dari Kubrik

Untuk melatih model machine learning, Anda memerlukan data. Tugas ilmu data biasanya bukan kompetisi Kaggle di mana Anda memiliki kumpulan data besar yang bagus yang telah diberi label sebelumnya. Terkadang Anda harus mengumpulkan, mengatur, dan membersihkan data Anda sendiri. Proses pengumpulan dan pelabelan data di dunia nyata ini dapat memakan waktu, rumit, mahal, tidak akurat, dan terkadang berbahaya. Selain itu, pada akhir proses ini, Anda bisa berakhir dengan data yang Anda temui di dunia nyata belum tentu menjadi data yang Anda inginkan dalam hal kualitas, keragaman (misalnya, ketidakseimbangan kelas), dan kuantitas. Di bawah ini adalah masalah umum yang dapat Anda temui saat bekerja dengan data nyata:

Pengumpulan dan pelabelan data nyata tidak dapat diskalakan
Memberi label data nyata secara manual terkadang tidak mungkin dilakukan
Data nyata memiliki masalah privasi dan keamanan
Data nyata tidak dapat diprogram
Model yang dilatih secara eksklusif pada data nyata tidak cukup berkinerja (misalnya, kecepatan pengembangan yang lambat)

Untungnya, masalah seperti ini bisa diselesaikan dengan data sintetik. Anda mungkin bertanya-tanya, apa itu data sintetik? Data sintetik dapat didefinisikan sebagai data yang dihasilkan secara artifisial yang biasanya dibuat menggunakan algoritme yang mensimulasikan proses dunia nyata, mulai dari perilaku pengguna jalan lain hingga perilaku cahaya saat berinteraksi dengan permukaan. Posting ini membahas batasan data dunia nyata, dan bagaimana data sintetik dapat membantu mengatasi masalah ini dan meningkatkan kinerja model.

Untuk kumpulan data kecil, biasanya dimungkinkan untuk mengumpulkan dan memberi label data secara manual; namun, banyak tugas pembelajaran mesin yang rumit membutuhkan kumpulan data yang besar untuk pelatihan. Misalnya, model yang dilatih untuk aplikasi kendaraan otonom memerlukan data dalam jumlah besar yang dikumpulkan dari sensor yang terpasang pada mobil atau drone. Proses pengumpulan data ini lambat dan bisa memakan waktu berbulan-bulan atau bahkan bertahun-tahun. Setelah data mentah dikumpulkan, kemudian harus dianotasi secara manual oleh manusia, yang juga mahal dan memakan waktu. Selain itu, tidak ada jaminan bahwa data berlabel yang kembali akan bermanfaat sebagai data pelatihan, karena mungkin tidak berisi contoh yang menginformasikan kesenjangan pengetahuan model saat ini.

[konten tersemat][konten tersemat]

Memberi label data ini sering melibatkan label gambar tangan manusia di atas data sensor. Ini sangat mahal karena tim ML dengan bayaran tinggi sering kali menghabiskan sebagian besar waktunya untuk memastikan label sudah benar dan mengirim kesalahan kembali ke pemberi label. Kekuatan utama data sintetik adalah Anda dapat menghasilkan data berlabel sempurna sebanyak yang Anda suka. Yang Anda butuhkan hanyalah cara untuk menghasilkan data sintetis yang berkualitas.

Perangkat lunak sumber terbuka untuk menghasilkan data sintetik: Kubrik (video multi-objek dengan masker segmentasi, peta kedalaman, dan aliran optik) dan SDV (tabular, relasional, dan data deret waktu).

Beberapa (dari banyak) perusahaan yang menjual produk atau membangun platform yang dapat menghasilkan data sintetik antara lain Gretel.ai (kumpulan data sintetis yang memastikan privasi data nyata), NVIDIA (alam semesta), dan Domain Paralel (kendaraan otonom). Untuk lebih, lihat daftar perusahaan data sintetis tahun 2022.

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Gambar dari Domain Paralel

Ada beberapa data yang tidak dapat ditafsirkan dan diberi label sepenuhnya oleh manusia. Di bawah ini adalah beberapa kasus penggunaan di mana data sintetik adalah satu-satunya pilihan:

Estimasi akurat kedalaman dan aliran optik dari gambar tunggal
Aplikasi self-driving yang memanfaatkan data radar yang tidak terlihat oleh mata manusia
Menghasilkan pemalsuan mendalam yang dapat digunakan untuk menguji sistem pengenalan wajah

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Image by Michael Galarnyk

Data sintetis sangat berguna untuk aplikasi di domain di mana Anda tidak dapat dengan mudah mendapatkan data nyata. Ini mencakup beberapa jenis data kecelakaan mobil dan sebagian besar jenis data kesehatan yang memiliki batasan privasi (misalnya, catatan kesehatan elektronik). Dalam beberapa tahun terakhir, peneliti kesehatan tertarik untuk memprediksi fibrilasi atrium (irama jantung tidak teratur) menggunakan sinyal EKG dan PPG. Mengembangkan detektor aritmia tidak hanya menantang karena anotasi sinyal ini membosankan dan mahal, tetapi juga karena pembatasan privasi. Ini adalah salah satu alasan mengapa ada penelitian dalam mensimulasikan sinyal-sinyal ini.

Penting untuk ditekankan bahwa mengumpulkan data nyata tidak hanya memakan waktu dan energi, tetapi sebenarnya bisa berbahaya. Salah satu masalah inti dengan aplikasi robotik seperti mobil self-driving adalah aplikasi fisik dari pembelajaran mesin. Anda tidak dapat menerapkan model yang tidak aman di dunia nyata dan mengalami kerusakan karena kurangnya data yang relevan. Menambah kumpulan data dengan data sintetik dapat membantu model menghindari masalah ini.

Berikut ini adalah beberapa perusahaan yang menggunakan data sintetis untuk meningkatkan keamanan aplikasi: Toyota, Waymo, dan pelayaran.

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Gambar dari Domain Paralel

Gambar sintetik seorang anak yang tersumbat sepeda yang muncul dari belakang bus sekolah dan bersepeda di seberang jalan di lingkungan bergaya pinggiran kota California.

Aplikasi kendaraan otonom sering menangani kejadian yang relatif “tidak biasa” (relatif terhadap kondisi mengemudi normal) seperti pejalan kaki di malam hari atau pengendara sepeda yang berkendara di tengah jalan. Model seringkali membutuhkan ratusan ribu atau bahkan jutaan contoh untuk mempelajari sebuah skenario. Salah satu masalah utama adalah bahwa data dunia nyata yang dikumpulkan mungkin bukan yang Anda cari dalam hal kualitas, keragaman (misalnya, ketidakseimbangan kelas, kondisi cuaca, lokasi), dan kuantitas. Masalah lainnya adalah untuk mobil dan robot yang dapat mengemudi sendiri, Anda tidak selalu tahu data apa yang Anda butuhkan, tidak seperti tugas pembelajaran mesin tradisional dengan kumpulan data tetap dan tolok ukur tetap. Sementara beberapa teknik augmentasi data yang mengubah gambar secara sistematis atau acak sangat membantu, teknik ini bisa memperkenalkan masalah mereka sendiri.

Di sinilah data sintetik masuk. API pembuatan data sintetik memungkinkan Anda merekayasa kumpulan data. API ini dapat menghemat banyak uang karena sangat mahal untuk membuat robot dan mengumpulkan data di dunia nyata. Jauh lebih baik dan lebih cepat untuk mencoba menghasilkan data dan mencari tahu prinsip-prinsip teknik menggunakan pembuatan dataset sintetik.

Berikut adalah contoh yang menyoroti bagaimana data sintetis yang dapat diprogram membantu model belajar: pencegahan transaksi penipuan (American Express), deteksi pengendara sepeda yang lebih baik (Domain Paralel), dan analisis dan ulasan operasi (Hutom.io).

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Tahapan Siklus Pengembangan Model | Gambar dari Jules S.Damji

Di industri, ada banyak faktor yang memengaruhi kelayakan/kinerja proyek pembelajaran mesin baik dalam pengembangan maupun produksi (misalnya, akuisisi data, anotasi, pelatihan model, penskalaan, penerapan, pemantauan, pelatihan ulang model, dan kecepatan pengembangan). Baru-baru ini, 18 insinyur pembelajaran mesin mengambil bagian dalam studi wawancara yang memiliki tujuan untuk memahami praktik dan tantangan MLOps umum di seluruh organisasi dan aplikasi (misalnya, kendaraan otonom, perangkat keras komputer, ritel, iklan, sistem pemberi rekomendasi, dll.). Salah satu kesimpulan dari penelitian ini adalah pentingnya kecepatan pengembangan yang secara kasar dapat didefinisikan sebagai kemampuan untuk membuat prototipe dan mengulangi ide dengan cepat.

Salah satu faktor yang mempengaruhi kecepatan pengembangan adalah kebutuhan untuk memiliki data untuk melakukan pelatihan dan evaluasi model awal serta pelatihan ulang model yang sering karena penurunan kinerja model dari waktu ke waktu karena penyimpangan data, penyimpangan konsep, atau bahkan kemiringan layanan pelatihan kereta api.

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Gambar dari Ternyata AI

Studi tersebut juga melaporkan bahwa kebutuhan ini membuat beberapa organisasi membentuk tim untuk sering memberi label pada data langsung. Ini mahal, memakan waktu, dan membatasi kemampuan organisasi untuk sering melatih ulang model.

5 Alasan Mengapa Anda Membutuhkan Data Sintetis
Gambar dari Gretel.ai

Perhatikan, diagram ini tidak mencakup bagaimana data sintetik juga dapat digunakan untuk hal-hal seperti Pengujian MLOps di pemberi rekomendasi.

Data sintetik memiliki potensi untuk digunakan dengan data dunia nyata dalam siklus hidup pembelajaran mesin (digambarkan di atas) untuk membantu organisasi mempertahankan performa model mereka lebih lama.

Pembuatan data sintetik menjadi semakin umum dalam alur kerja pembelajaran mesin. Nyatanya, Gartner memprediksi bahwa pada tahun 2030, data sintetis akan lebih banyak digunakan daripada data dunia nyata untuk melatih model pembelajaran mesin. Jika Anda memiliki pertanyaan atau pemikiran tentang posting ini, jangan ragu untuk menghubungi komentar di bawah atau melalui Twitter.

Michael Galarnyk adalah Profesional Ilmu Data, dan bekerja di Hubungan Pengembang di Anyscale.