Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden

Kaynak Düğüm: 1942868

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Üretilen sentetik veriler Kubric'ten
 

Bir makine öğrenimi modelini eğitmek için verilere ihtiyacınız vardır. Veri bilimi görevleri, genellikle önceden etiketlenmiş olarak gelen güzel, büyük, derlenmiş bir veri kümenizin olduğu bir Kaggle yarışması değildir. Bazen kendi verilerinizi toplamanız, düzenlemeniz ve temizlemeniz gerekir. Gerçek dünyada veri toplama ve etiketleme süreci zaman alıcı, hantal, pahalı, hatalı ve bazen tehlikeli olabilir. Üstelik bu sürecin sonunda, gerçek dünyada karşılaştığınız verilerin nitelik, çeşitlilik (örneğin, sınıf dengesizliği) ve nicelik açısından istediğiniz veriler olmayabileceği sonucuna varabilirsiniz. Gerçek verilerle çalışırken karşılaşabileceğiniz yaygın sorunlar aşağıdadır: 

  • Gerçek veri toplama ve etiketleme ölçeklenebilir değildir
  • Gerçek verileri manuel olarak etiketlemek bazen imkansız olabilir
  • Gerçek verilerin gizlilik ve güvenlik sorunları vardır
  • Gerçek veriler programlanamaz
  • Özel olarak gerçek veriler üzerinde eğitilmiş bir model yeterince performans göstermiyor (örneğin, yavaş geliştirme hızı)

Neyse ki, bunun gibi problemler sentetik verilerle çözülebilir. Merak ediyor olabilirsiniz. sentetik veri nedir? Sentetik veriler, diğer yol kullanıcılarının davranışlarından, yüzeylerle etkileşime giren ışığın davranışına kadar, tipik olarak gerçek dünyadaki süreçleri simüle eden algoritmalar kullanılarak oluşturulan yapay olarak üretilmiş veriler olarak tanımlanabilir. Bu gönderi, gerçek dünya verilerinin sınırlamalarını ve sentetik verilerin bu sorunların üstesinden gelmeye ve model performansını iyileştirmeye nasıl yardımcı olabileceğini ele alıyor. 

Küçük veri kümeleri için, verileri toplamak ve manuel olarak etiketlemek genellikle mümkündür; ancak birçok karmaşık makine öğrenimi görevi, eğitim için çok büyük veri kümeleri gerektirir. Örneğin, otonom araç uygulamaları için eğitilmiş modeller, arabalara veya dronlara bağlı sensörlerden toplanan büyük miktarda veriye ihtiyaç duyar. Bu veri toplama süreci yavaştır ve aylar hatta yıllar alabilir. Ham veriler toplandıktan sonra, yine pahalı ve zaman alıcı olan, insanlar tarafından manuel olarak açıklanması gerekir. Ayrıca, modelin mevcut bilgi eksikliklerini bildiren örnekler içermeyebileceğinden, geri gelen etiketli verilerin eğitim verileri olarak yararlı olacağının garantisi yoktur. 

[gömülü içerik][gömülü içerik]

Bu verilerin etiketlenmesi genellikle insanların sensör verilerinin üzerine elle çizim etiketleri yapmasını içerir. Yüksek ücretli makine öğrenimi ekipleri genellikle zamanlarının büyük bir bölümünü etiketlerin doğru olduğundan emin olmak ve hataları etiketleyicilere geri göndermek için harcadıkları için bu çok maliyetlidir. Sentetik verilerin en büyük gücü, istediğiniz kadar mükemmel şekilde etiketlenmiş veri üretebilmenizdir. İhtiyacınız olan tek şey, kaliteli yapay veriler oluşturmanın bir yoludur. 

Sentetik veriler oluşturmak için açık kaynaklı yazılım: Kubric'ten (segmentasyon maskeleri, derinlik haritaları ve optik akış içeren çok nesneli videolar) ve SDV (tablolu, ilişkisel ve zaman serisi verileri).

Ürünler satan veya sentetik veri üretebilen platformlar oluşturan bazı (birçok) şirket arasında şunlar yer alır: Gretel.ai (gerçek verilerin gizliliğini sağlayan sentetik veri setleri), NVIDIA (omniverse) ve Paralel Etki Alanı (otonom araçlar). Daha fazlası için, sentetik veri şirketlerinin 2022 listesine bakın

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Image Paralel Etki Alanı
 

İnsanların tam olarak yorumlayamadığı ve etiketleyemediği bazı veriler var. Aşağıda, sentetik verilerin tek seçenek olduğu bazı kullanım durumları verilmiştir: 

  • Doğru derinlik tahmini ve optik akış tek görüntülerden
  • İnsan gözüyle görülemeyen radar verilerini kullanan sürücüsüz uygulamalar 
  • Yüz tanıma sistemlerini test etmek için kullanılabilecek derin sahteler oluşturma

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Image Michael Galarnyk
 

Yapay veriler, gerçek verileri kolayca elde edemediğiniz alanlardaki uygulamalar için oldukça kullanışlıdır. Bu, bazı araba kazası verilerini ve gizlilik kısıtlamaları olan çoğu sağlık verisini içerir (örn. elektronik sağlık kayıtları). Son yıllarda sağlık araştırmacıları, EKG ve PPG sinyallerini kullanarak atriyal fibrilasyonu (düzensiz kalp ritmi) tahmin etmekle ilgileniyorlar. Bir aritmi detektörü geliştirmek, yalnızca bu sinyallerin açıklamalarının sıkıcı ve maliyetli olması nedeniyle değil, aynı zamanda mahremiyet kısıtlamaları nedeniyle de zordur. olmasının bir nedeni de bu bu sinyalleri simüle etme araştırması

Gerçek veri toplamanın sadece zaman ve enerji almakla kalmayıp aslında tehlikeli olabileceğini vurgulamak önemlidir. Kendi kendini süren arabalar gibi robotik uygulamalarla ilgili temel sorunlardan biri, bunların makine öğreniminin fiziksel uygulamaları olmalarıdır. Güvenli olmayan bir modeli gerçek dünyada dağıtamaz ve ilgili veri eksikliğinden dolayı bir çökme yaşayamazsınız. Bir veri kümesini sentetik verilerle zenginleştirmek, modellerin bu sorunlardan kaçınmasına yardımcı olabilir. 

Aşağıda, uygulama güvenliğini artırmak için sentetik verileri kullanan bazı şirketler yer almaktadır: toyota, Waymo, ve Gemi gezisi.

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Image Paralel Etki Alanı
 

Kaliforniya tarzı bir banliyöde okul otobüsünün arkasından çıkan ve caddenin karşısına bisiklet süren bisikletli tıkalı bir çocuğun sentetik görüntüsü.

Otonom araç uygulamaları genellikle gece yayalar veya yolun ortasında bisiklet süren bisikletliler gibi nispeten "sıra dışı" (normal sürüş koşullarına göre) olaylarla ilgilenir. Modeller genellikle bir senaryoyu öğrenmek için yüz binlerce hatta milyonlarca örneğe ihtiyaç duyar. En büyük sorunlardan biri, toplanan gerçek dünya verilerinin kalite, çeşitlilik (örneğin, sınıf dengesizliği, hava koşulları, konum) ve miktar açısından aradığınız şey olmayabilir. Başka bir sorun da, kendi kendini süren arabalar ve robotlar için, sabit veri kümeleri ve sabit kıyaslamalarla geleneksel makine öğrenimi görevlerinin aksine, hangi verilere ihtiyacınız olduğunu her zaman bilmemenizdir. Görüntüleri sistematik veya rastgele değiştiren bazı veri artırma teknikleri yardımcı olsa da, bu teknikler kendi sorunlarını tanıtmak

Sentetik verilerin devreye girdiği yer burasıdır. Sentetik veri oluşturma API'leri, veri kümelerini tasarlamanıza olanak tanır. Gerçek dünyada robotlar oluşturmak ve veri toplamak çok pahalı olduğundan, bu API'ler size çok para kazandırabilir. Sentetik veri kümesi oluşturmayı kullanarak veri oluşturmaya ve mühendislik ilkelerini anlamaya çalışmak çok daha iyi ve hızlıdır.

Aşağıdakiler, programlanabilir yapay verilerin modellerin öğrenmesine nasıl yardımcı olduğunu vurgulayan örneklerdir: hileli işlemlerin önlenmesi (American Express), daha iyi bisikletçi algılama (Parallel Domain), ve cerrahi analiz ve inceleme (Hutom.io).

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Model Geliştirme Döngüsünün Aşamaları | görüntü Jules S. Damji 
 

Sanayide var, hem geliştirme hem de üretimde bir makine öğrenimi projesinin uygulanabilirliğini/performansını etkileyen birçok faktör (örneğin, veri toplama, ek açıklama, model eğitimi, ölçeklendirme, devreye alma, izleme, modeli yeniden eğitme ve geliştirme hızı). Son zamanlarda, 18 makine öğrenimi mühendisi bir röportaj çalışmasına katıldı kuruluşlar ve uygulamalar (örn. otonom araçlar, bilgisayar donanımı, perakende satış, reklamlar, öneri sistemleri vb.) genelinde ortak MLOps uygulamalarını ve zorluklarını anlama amacına sahip olan. Çalışmanın vardığı sonuçlardan biri, kabaca fikirleri hızla prototipleme ve yineleme yeteneği olarak tanımlanabilecek geliştirme hızının önemiydi.

Geliştirme hızını etkileyen faktörlerden biri, ilk model eğitimini ve değerlendirmesini yapmak için verilere sahip olma ihtiyacıdır. sık model eğitiminin yanı sıra veri kayması, kavram kayması ve hatta tren eğitimi-hizmet çarpıklığı nedeniyle zaman içinde azalan model performansı nedeniyle. 

 

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Image Açıkça yapay zeka
 

Araştırmada ayrıca bu ihtiyacın bazı kuruluşları canlı verileri sık sık etiketleyecek bir ekip kurmaya yönelttiği de belirtildi. Bu pahalıdır, zaman alıcıdır ve bir kuruluşun modelleri sık sık yeniden eğitme yeteneğini sınırlar. 

 

Sentetik Verilere İhtiyaç Duymanız İçin 5 Neden
Image Gretel.ai
 

Bu şema, sentetik verilerin aşağıdakiler için nasıl kullanılabileceğini kapsamaz: Tavsiyelerde MLOps testi.

Sentetik veriler, kuruluşların modellerinin performansını daha uzun süre korumasına yardımcı olmak için makine öğrenimi yaşam döngüsünde (yukarıda resmedilmiştir) gerçek dünya verileriyle birlikte kullanılma potansiyeline sahiptir. 

Sentetik veri oluşturma, makine öğrenimi iş akışlarında giderek daha yaygın hale geliyor. Aslında, Gartner 2030 yılına kadar sentetik verilerin, makine öğrenimi modellerini eğitmek için gerçek dünya verilerinden çok daha fazla kullanılacağını öngörüyor. Bu gönderiyle ilgili herhangi bir sorunuz veya düşünceniz varsa, aşağıdaki yorumlarda veya aracılığıyla bize ulaşmaktan çekinmeyin. Twitter.
 
 
Michael Galarnyk Veri Bilimi Uzmanıdır ve Anyscale'de Geliştirici İlişkileri alanında çalışır.
 

Zaman Damgası:

Den fazla KDNuggets