Bu 10 Soruyu Sormadan Bir Veri Kümesine Dokunmayın
Yapay zeka projenizin başarısı için doğru veri kümesini seçmek çok önemlidir.
By Sandeep Uttamchandani, Ph.D., Hem Ürün/Yazılım Oluşturucusu (Engg Başkan Yardımcısı) hem de kurumsal çapta Veri/AI girişimlerinin (CDO) yürütülmesinde Lider
Veri, bir AI ürününün kalbidir. Modelleri ayarlamak yerine verileri ayarlamaya giderek artan bir vurgu var - Andrew Ng tarafından veri merkezli yapay zeka. Tecrübelerime göre, bir AI projesinin başarısı veya başarısızlığı, kullanılan veri kümeleri tarafından tahmin edilebilir.
Yeni bir model oluşturmak isteyen bir Veri Bilimcisi/Yapay Zeka Mühendisiyseniz veya bir yapay zeka projesi için ardışık düzen oluşturmak için çalışan bir Veri Mühendisiyseniz, kısa listeye aldığınız her veri kümesi için, yapay zeka yaşam döngüsünün sonraki aşamalarında baş ağrılarından ve kaçırılmış beklentilerden kaçınmak için aşağıdaki soruları sorun.
1. Veri kümesi niteliklerinin anlamı belgeleniyor mu?
Büyük veri çağından önce, veriler merkezi veri ambarına eklenmeden önce düzenleniyordu. Bu, yazma sırasında şema olarak bilinir. Günümüzde veri gölleriyle yaklaşım, önce verileri bir araya getirmek ve ardından tüketim anında verilerin anlamını çıkarmaktır. Bu, okunduğunda şema olarak bilinir.
Veri öznitelikleri nadiren doğru bir şekilde belgelenir veya güncel tutulur. Belgelere sahip olmak projeyi yavaşlatan bir adım olarak görülse de, model hata ayıklaması sırasında aslında son derece kritik hale gelir. Veri kümesinin sahibi olan Veri Sorumlusunu belirleyin ve en doğru belgeleri sağlayabilmelerini sağlayın.
2. Veri kümesindeki toplu/türetilmiş metrikler standartlaştırılmış mı?
Türetilmiş veriler veya metrikler, birden çok doğruluk kaynağına ve iş tanımlarına sahip olabilir. Metriklerin net bir belgelenmiş iş tanımına sahip olduğundan emin olun (bazen ETL'de örtük olarak bulunur)
3. Veri seti, veri hakları düzenlemelerine uygun mu (GDPR, CCPA vb.)
Veri hakları düzenlemeleri artık kritik hale geliyor - model eğitimi ve yeniden eğitim sırasında bunları izlemek ve uygulamak önemlidir. Şekilde gösterildiği gibi GDPR, CCPA, Brezilya Genel Veri Koruma Yasası, Hindistan Kişisel Veri Koruma Yasası ve diğerleri gibi giderek artan sayıda veri hakları düzenlemesi bulunmaktadır. Bu yasalar, müşteri verilerinin tercihlerine göre toplanmasını, kullanılmasını ve silinmesini gerektirir. Var farklı yönler Veri hakları, yani: Veri haklarının toplanması, Veri haklarının kullanılması, Veri haklarının silinmesi, Veri haklarına erişim.
4. Veri seti şeması/tanım değişikliklerinin tüm tüketicilere bildirilmesini sağlayacak açık bir değişiklik yönetimi süreci var mı?
Kaynaktaki şema değişikliklerinin sonraki işlemlerle koordineli olmaması çok yaygındır. Değişiklikler, şema değişikliklerinden (mevcut işlem hatlarını bozma) veri özniteliklerinde algılanması zor sematik değişikliklere kadar değişebilir. Ayrıca, iş metrikleri değiştiğinde, tanımların sürümlerinde eksiklik olur.
5. Veri setinin toplandığı bağlam nedir?
Veri kümeleri nadiren nihai gerçeği istatistiksel bir bakış açısından yakalar. Yalnızca uygulama sahiplerinin kullanım durumları için o sırada ihtiyaç duyduğu özellikleri yakalarlar. Önyargı ve bırakılan veriler için veri kümelerini analiz etmek önemlidir. Veri kümesinin bağlamını anlamak çok önemlidir.
6. Veri IID mi?
The örtük varsayım model eğitimi, verilerin kimlik (Bağımsız ve Özdeş Dağıtılmış). Ayrıca, verilerin bir son kullanma tarihi vardır. 10 yıl öncesine ait müşteri davranışlarının kayıtları temsili olmayabilir.
7. Veri kümesi, veri toplamadaki sistematik hatalar için test edilmiş/onaylanmış mı?
Veri kümesindeki hatalar rastgele ise, model eğitimine daha az zararlıdırlar. Ancak, belirli bir satır veya sütunun sistematik olarak eksik olduğu bir hata varsa, veri kümesinde bir yanlılığa yol açabilir. Örneğin, bir kullanıcı kategorisi için müşteri tıklamalarının cihaz ayrıntıları bir hata nedeniyle eksik, veri kümesi gerçeği yansıtmaz.
8. Veri seti ani dağılım değişiklikleri için izleniyor mu?
Veri kümeleri sürekli gelişmektedir. Veri dağılımının analizi, yalnızca model oluşturma sırasında gerekli olan tek seferlik bir faaliyet değildir. Bunun yerine, özellikle çevrimiçi eğitim için, sapmalar için veri kümelerini sürekli olarak izlemeye ihtiyaç vardır.
9. Veri setinde aykırı değerler nasıl işlenir?
Aykırı değerler mutlaka kötü değildir ve bazen modeli doğru bir şekilde oluşturmak için gereklidir. Toplama sırasında aykırı değerlerin filtrelenip filtrelenmediğini ve mantığın/kriterlerin ne olduğunu anlamak önemlidir.
10. Veri kümesinin atanmış bir Veri Sorumlusu var mı? (büyük ölçekli ekipler için geçerlidir)
Veri kümeleri, anlaşılmazlarsa işe yaramazlar. Sütunların anlamını tersine çevirmeye çalışmak genellikle 'kaybedilen bir savaş'tır. Buradaki kilit nokta, bir veri kümesinin dokümantasyon ayrıntılarını güncellemesi ve geliştirmesinden sorumlu bir Veri Sorumlusunun bulunmasıdır.
Tecrübelerime göre, bu soruların cevabı proaktif olarak bilinen bilinenler, bilinen bilinmeyenler ve bilinmeyen bilinmeyenler veri kümesinde. Soruların her birinin olumlu bir cevabı olması önemli değildir. Aksine, bu yanıtları hesaba katmak AI yaşam döngüsünü hızlandırabilir ve kör noktaların önlenmesine yardımcı olabilir.
Bio: Sandeep Uttamchandani, Ph.D.: Veri + AI/ML — Hem Ürün/Yazılım Oluşturucusu (Engg Başkan Yardımcısı) hem de kurumsal çapta Veri/AI girişimlerinin (CDO) yürütülmesinde Lider | O'Reilly Kitap Yazarı | Kurucu – DataForHumanity (kar amacı gütmeyen)
İlgili:
Kaynak: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- erişim
- Hesap
- AI
- Türkiye
- analiz
- Andrew
- Uygulama
- uygulamalar
- Savaş
- büyük Veri
- Fatura
- Böcek
- inşa etmek
- oluşturucu
- bina
- iş
- CCPA
- değişiklik
- Sütun
- ortak
- Tüketiciler
- tüketim
- veri
- veri koruma
- veri bilimi
- veri ambarı
- derin öğrenme
- düştü
- mühendis
- Mühendislik
- vb
- Excel
- deneyim
- keşif
- Yüz
- Başarısızlık
- şekil
- Ad
- kurucu
- KVKK
- genel
- Büyüyen
- baş ağrısı
- Ne kadar
- HTTPS
- belirlemek
- Hindistan
- IT
- anahtar
- Yasalar
- öncülük etmek
- öğrenme
- çizgi
- makine öğrenme
- yönetim
- Metrikleri
- Microsoft
- model
- yani
- Kar amacı gütmeyen
- Online
- açık
- işletme
- Diğer
- sahipleri
- kişisel bilgi
- portföy
- PLATFORM
- proje
- koruma
- Python
- menzil
- Gerçeklik
- kayıtlar
- yönetmelik
- ters
- Bilim
- bilim adamları
- becerileri
- Yavaşlama
- hız
- hikayeler
- başarı
- Test yapmak
- Kaynak
- zaman
- üst
- dokunma
- iz
- Eğitim
- Güncelleme
- depo
- ağ
- Nedir
- DSÖ
- içinde
- X
- yıl
- Youtube