Jangan Sentuh Dataset Tanpa Mengajukan 10 Pertanyaan Ini

Tags: Dataset, Distribusi, Outliers, Privasi, Standardisasi

Memilih kumpulan data yang tepat sangat penting untuk keberhasilan proyek AI Anda.

By Sandeep Uttamchandani, Ph.D., Baik Pembuat Produk/Perangkat Lunak (VP of Engg) & Pemimpin dalam mengoperasikan inisiatif Data/AI (CDO) di seluruh perusahaan

Eksplorasi data

Data adalah jantung dari produk AI. Ada penekanan yang berkembang pada penyetelan data alih-alih penyetelan model — diciptakan oleh Andrew Ng sebagai AI yang berpusat pada data. Dalam pengalaman saya, keberhasilan atau kegagalan proyek AI dapat diprediksi oleh kumpulan data yang digunakan.

Jika Anda seorang Data Scientist/AI Engineer yang ingin membangun model baru atau seorang Data Engineer yang bekerja untuk membangun pipeline untuk proyek AI, untuk setiap kumpulan data yang Anda pilih, ajukan pertanyaan berikut untuk menghindari sakit kepala dan harapan yang meleset di kemudian hari dalam siklus hidup AI.

1. Apakah arti dari atribut dataset didokumentasikan?

Sebelum era data besar, data dikurasi sebelum ditambahkan ke gudang data pusat. Ini dikenal sebagai schema-on-write. Saat ini, pendekatan dengan data lake adalah dengan menggabungkan data terlebih dahulu dan kemudian menyimpulkan arti data pada saat konsumsi. Ini dikenal sebagai schema-on-read.

Atribut data jarang didokumentasikan dengan benar atau terus diperbarui. Meskipun memiliki dokumentasi dapat dilihat sebagai langkah yang memperlambat proyek, itu sebenarnya menjadi sangat penting selama debugging model. Identifikasi Data Steward yang memiliki kumpulan data dan pastikan mereka dapat memberikan dokumentasi yang paling akurat.

2. Apakah metrik agregat/turunan dalam kumpulan data distandarisasi?

Data atau metrik yang diturunkan dapat memiliki banyak sumber kebenaran dan definisi bisnis. Pastikan metrik memiliki definisi bisnis terdokumentasi yang jelas (terkadang tersirat dalam ETL)

3. Apakah kumpulan data mematuhi peraturan hak data (seperti GDPR, CCPA, dll)

Peraturan hak data sekarang menjadi penting — penting untuk melacak dan menegakkannya selama pelatihan model dan pelatihan ulang. Ada semakin banyak peraturan hak data seperti GDPR, CCPA, Undang-Undang Perlindungan Data Umum Brasil, RUU Perlindungan Data Pribadi India, dan beberapa lainnya, seperti yang ditunjukkan pada Gambar. Undang-undang ini mengharuskan data pelanggan dikumpulkan, digunakan, dan dihapus berdasarkan preferensi mereka. Ada aspek yang berbeda hak data, yaitu: Hak pengumpulan data, Hak penggunaan data, Penghapusan hak data, Hak akses data.

4. Apakah ada proses manajemen perubahan yang jelas sehingga perubahan skema/definisi dataset akan diberitahukan kepada semua konsumen?

Sangat umum bahwa perubahan skema pada sumbernya tidak terkoordinasi dengan pemrosesan hilir. Perubahan dapat berkisar dari perubahan skema (melanggar jalur pipa yang ada) hingga perubahan sematik yang sulit dideteksi pada atribut data. Juga, ketika metrik bisnis berubah, ada kekurangan versi definisi.

5. Apa konteks pengumpulan dataset?

Kumpulan data jarang menangkap kebenaran tertinggi dari sudut pandang statistik. Mereka hanya menangkap atribut yang dibutuhkan pemilik aplikasi pada saat itu untuk kasus penggunaan mereka. Penting untuk menganalisis kumpulan data untuk bias dan data yang hilang. Memahami konteks kumpulan data sangat penting.

6. Apakah data IID?

Grafik asumsi implisit dari pelatihan model adalah bahwa datanya adalah ID (Independen dan Identik Terdistribusi). Selain itu, data memiliki tanggal kedaluwarsa. Catatan perilaku pelanggan dari 10 tahun yang lalu mungkin tidak representatif.

7. Apakah dataset diuji/divalidasi untuk kesalahan sistematis dalam pengumpulan data?

Jika kesalahan dalam kumpulan data bersifat acak, kesalahan tersebut tidak terlalu berbahaya bagi pelatihan model. Tetapi jika ada bug sehingga baris atau kolom tertentu hilang secara sistematis, hal itu dapat menyebabkan bias dalam kumpulan data. Misalnya, detail perangkat klik pelanggan tidak ada untuk kategori pengguna karena bug, kumpulan data tidak akan mewakili kenyataan.

8. Apakah dataset dimonitor untuk perubahan distribusi yang tiba-tiba?

Kumpulan data terus berkembang. Analisis distribusi data bukanlah kegiatan satu kali yang diperlukan hanya pada saat pembuatan model. Sebaliknya, ada kebutuhan untuk terus memantau kumpulan data untuk penyimpangan, terutama untuk pelatihan online.

9. Bagaimana outliers ditangani dalam dataset?

Pencilan tidak selalu buruk dan terkadang penting untuk membangun model dengan benar. Penting untuk dipahami jika outlier difilter selama pengumpulan dan apa logika/kriterianya.

10. Apakah dataset memiliki Data Steward yang ditetapkan? (berlaku untuk tim berukuran lebih besar)

Kumpulan data tidak berguna jika tidak dapat dipahami. Mencoba merekayasa balik arti kolom sering kali merupakan 'pertempuran yang kalah'. Kuncinya adalah memastikan bahwa ada Data Steward yang bertanggung jawab atas kumpulan data untuk memperbarui dan mengembangkan detail dokumentasi.

Dalam pengalaman saya, jawaban atas pertanyaan-pertanyaan ini membantu mengungkap secara proaktif diketahui yang diketahui, yang tidak diketahui yang diketahui, dan yang tidak diketahui yang tidak diketahui dalam kumpulan data. Tidaklah penting bahwa setiap pertanyaan memiliki jawaban afirmatif. Sebaliknya, mempertimbangkan respons ini dapat mempercepat siklus hidup AI dan membantu menghindari titik buta.

Bio: Sandeep Uttamchandani, Ph.D.: Data + AI/ML — Baik Pembuat Produk/Perangkat Lunak (VP of Engg) & Pemimpin dalam mengoperasikan inisiatif Data/AI (CDO) di seluruh perusahaan | Penulis Buku O'Reilly | Pendiri – DataForHumanity (nirlaba)

Terkait:

= Previous post

Next post =>

Cerita Top Melewati 30 Hari

Paling Populer
Apakah Anda Membaca File Excel dengan Python? Ada Cara 1000x Lebih Cepat Mengotomatiskan Microsoft Excel dan Word Menggunakan Python Ilmuwan Data Tanpa Keterampilan Rekayasa Data Akan Menghadapi Kebenaran yang Keras Cara Membuat Aplikasi Web Menakjubkan untuk Proyek Ilmu Data Anda Portofolio Ilmu Data yang Akan Memberi Anda Pekerjaan

Paling Banyak Dibagikan
Buku Terbuka Kompendium Mesin & Pembelajaran Mendalam Ilmuwan Data Tanpa Keterampilan Rekayasa Data Akan Menghadapi Kebenaran yang Keras Pengujian Hipotesis Dijelaskan Lembar Cheat Ilmu Data 2.0 8 Ide Proyek Pembelajaran Mendalam untuk Pemula