5 razlogov, zakaj potrebujete sintetične podatke

5 razlogov, zakaj potrebujete sintetične podatke

Izvorno vozlišče: 1942868

5 razlogov, zakaj potrebujete sintetične podatke
Sintetični podatki, pridobljeni iz Kubric
 

Za usposabljanje modela strojnega učenja potrebujete podatke. Naloge podatkovne znanosti običajno niso tekmovanje Kaggle, kjer imate lep velik kuriran nabor podatkov, ki je vnaprej označen. Včasih morate zbirati, organizirati in čistiti lastne podatke. Ta postopek zbiranja in označevanja podatkov v resničnem svetu je lahko dolgotrajen, okoren, drag, netočen in včasih nevaren. Poleg tega se lahko na koncu tega postopka konča s podatki, na katere ste naleteli v resničnem svetu, ki niso nujno podatki, ki bi jih želeli v smislu kakovosti, raznolikosti (npr. razredno neravnovesje) in količine. Spodaj so pogoste težave, na katere lahko naletite pri delu z resničnimi podatki: 

  • Pravo zbiranje podatkov in označevanje nista razširljiva
  • Ročno označevanje resničnih podatkov je včasih nemogoče
  • Pravi podatki imajo težave z zasebnostjo in varnostjo
  • Realnih podatkov ni mogoče programirati
  • Model, ki je usposobljen izključno na realnih podatkih, ni dovolj zmogljiv (npr. počasna razvojna hitrost)

Na srečo je takšne težave mogoče rešiti s sintetičnimi podatki. Morda se sprašujete, kaj so sintetični podatki? Sintetične podatke je mogoče opredeliti kot umetno ustvarjene podatke, ki so običajno ustvarjeni z uporabo algoritmov, ki simulirajo procese v resničnem svetu, od vedenja drugih udeležencev v prometu pa vse do vedenja svetlobe, ko je v interakciji s površinami. Ta objava obravnava omejitve podatkov iz resničnega sveta in kako lahko sintetični podatki pomagajo premagati te težave in izboljšati učinkovitost modela. 

Za majhne nize podatkov je običajno mogoče zbrati in ročno označiti podatke; vendar številne kompleksne naloge strojnega učenja zahtevajo ogromne nabore podatkov za usposabljanje. Na primer, modeli, usposobljeni za aplikacije avtonomnih vozil, potrebujejo velike količine podatkov, zbranih s senzorji, pritrjenimi na avtomobile ali brezpilotna letala. Ta postopek zbiranja podatkov je počasen in lahko traja mesece ali celo leta. Ko so neobdelani podatki zbrani, jih morajo ljudje ročno označiti, kar je tudi drago in dolgotrajno. Poleg tega ni nobenega zagotovila, da bodo označeni podatki, ki se vrnejo, koristni kot podatki za usposabljanje, saj morda ne vsebujejo primerov, ki pojasnjujejo trenutne vrzeli v znanju modela. 

[vdelana vsebina][vdelana vsebina]

Označevanje teh podatkov pogosto vključuje ljudi, ki ročno rišejo oznake na vrhu senzorskih podatkov. To je zelo drago, saj visoko plačane ekipe ML pogosto porabijo velik del svojega časa za zagotavljanje, da so oznake pravilne, in pošiljanje napak nazaj označevalcem. Glavna prednost sintetičnih podatkov je, da lahko ustvarite kolikor želite popolnoma označenih podatkov. Vse, kar potrebujete, je način za ustvarjanje kakovostnih sintetičnih podatkov. 

Odprtokodna programska oprema za ustvarjanje sintetičnih podatkov: Kubric (videoposnetki z več objekti s segmentacijskimi maskami, zemljevidi globine in optičnim tokom) in Sdv (tabelarni, relacijski podatki in podatki časovnih vrst).

Nekatera (od mnogih) podjetij, ki prodajajo izdelke ali gradijo platforme, ki lahko ustvarjajo sintetične podatke, vključujejo Gretel.ai (sintetični nizi podatkov, ki zagotavljajo zasebnost realnih podatkov), NVIDIA (omniverzum) in Vzporedna domena (avtonomna vozila). Za več, glejte seznam podjetij s sintetičnimi podatki za leto 2022

5 razlogov, zakaj potrebujete sintetične podatke
Slika iz Vzporedna domena
 

Obstaja nekaj podatkov, ki jih ljudje ne morejo v celoti interpretirati in označiti. Spodaj je nekaj primerov uporabe, kjer so sintetični podatki edina možnost: 

  • Natančna ocena globine in optični tok iz posameznih slik
  • Samovozeče aplikacije, ki uporabljajo radarske podatke, ki niso vidni človeškemu očesu 
  • Ustvarjanje globokih ponaredkov, ki se lahko uporabijo za testiranje sistemov za prepoznavanje obrazov

5 razlogov, zakaj potrebujete sintetične podatke
Slike, ki jih Michael Galarnyk
 

Sintetični podatki so zelo uporabni za aplikacije v domenah, kjer ne morete preprosto dobiti pravih podatkov. To vključuje nekatere vrste podatkov o prometnih nesrečah in večino vrst zdravstvenih podatkov, ki imajo omejitve glede zasebnosti (npr. elektronske zdravstvene kartoteke). V zadnjih letih se zdravstveni raziskovalci zanimajo za napovedovanje atrijske fibrilacije (nepravilnega srčnega ritma) z uporabo signalov EKG in PPG. Razvijanje detektorja aritmij ni samo izziv, ker je označevanje teh signalov dolgočasno in drago, ampak tudi zaradi omejitev zasebnosti. To je eden od razlogov, zakaj obstaja raziskave simulacije teh signalov

Pomembno je poudariti, da zbiranje resničnih podatkov ne zahteva le časa in energije, ampak je lahko tudi nevarno. Ena glavnih težav z robotskimi aplikacijami, kot so samovozeči avtomobili, je, da so fizične aplikacije strojnega učenja. V resničnem svetu ne morete uvesti nevarnega modela in se zrušiti zaradi pomanjkanja ustreznih podatkov. Povečanje nabora podatkov s sintetičnimi podatki lahko pomaga modelom, da se izognejo tem težavam. 

Sledijo nekatera podjetja, ki uporabljajo sintetične podatke za izboljšanje varnosti aplikacij: Toyota, Waymoin križarjenje.

5 razlogov, zakaj potrebujete sintetične podatke
Slika iz Vzporedna domena
 

Sintetična podoba okleščenega otroka na kolesu, ki se pojavi izza šolskega avtobusa in kolesari čez cesto v predmestnem okolju v kalifornijskem slogu.

Aplikacije za avtonomna vozila se pogosto ukvarjajo z razmeroma »nenavadnimi« (glede na običajne vozne razmere) dogodki, kot so pešci ponoči ali kolesarji, ki vozijo po sredini ceste. Modeli pogosto potrebujejo več sto tisoč ali celo milijone primerov, da se naučijo scenarija. Ena glavnih težav je, da zbrani podatki iz resničnega sveta morda niso tisto, kar iščete v smislu kakovosti, raznolikosti (npr. neravnovesje v razredu, vremenskih razmer, lokacije) in količine. Druga težava je, da pri samovozečih avtomobilih in robotih ne veste vedno, katere podatke potrebujete, za razliko od tradicionalnih nalog strojnega učenja s fiksnimi nabori podatkov in fiksnimi merili uspešnosti. Medtem ko so nekatere tehnike povečanja podatkov, ki sistematično ali naključno spreminjajo slike, koristne, lahko te tehnike predstavijo svoje težave

Tu pridejo na vrsto sintetični podatki. API-ji za generiranje sintetičnih podatkov vam omogočajo načrtovanje naborov podatkov. Ti API-ji vam lahko prihranijo veliko denarja, saj je izdelava robotov in zbiranje podatkov v resničnem svetu zelo draga. Veliko bolje in hitreje je poskušati ustvariti podatke in ugotoviti inženirske principe z uporabo sintetičnega ustvarjanja nabora podatkov.

Sledijo primeri, ki poudarjajo, kako programabilni sintetični podatki pomagajo modelom pri učenju: preprečevanje goljufivih transakcij (American Express), boljše zaznavanje kolesarjev (vzporedna domena)in analiza in pregled operacije (Hutom.io).

5 razlogov, zakaj potrebujete sintetične podatke
Faze cikla razvoja modela | Slika iz Jules S. Damji 
 

V industriji obstajajo veliko dejavnikov, ki vplivajo na sposobnost preživetja/uspešnost projekta strojnega učenja v razvoju in proizvodnji (npr. pridobivanje podatkov, označevanje, usposabljanje modela, skaliranje, uvajanje, spremljanje, ponovno usposabljanje modela in hitrost razvoja). Pred kratkim, V intervjuju je sodelovalo 18 inženirjev strojnega učenja ki je imel cilj razumeti običajne prakse MLOps in izzive v organizacijah in aplikacijah (npr. avtonomna vozila, računalniška strojna oprema, maloprodaja, oglasi, sistemi priporočil itd.). Eden od zaključkov študije je bil pomen hitrosti razvoja, ki jo je mogoče grobo opredeliti kot sposobnost hitrega ustvarjanja prototipov in ponavljanja idej.

Eden od dejavnikov, ki vpliva na hitrost razvoja, je potreba po podatkih za začetno usposabljanje in vrednotenje modela kot tudi pogosto prekvalificiranje modela zaradi delovanja modela, ki se sčasoma zmanjšuje zaradi odstopanja podatkov, konceptnega premika ali celo izkrivljenosti pri streženju pri usposabljanju vlaka. 

 

5 razlogov, zakaj potrebujete sintetične podatke
Slika iz Očitno AI
 

Študija je tudi poročala, da so zaradi te potrebe nekatere organizacije ustanovile skupino za pogosto označevanje podatkov v živo. To je drago, dolgotrajno in omejuje zmožnost organizacije, da pogosto prekvalificira modele. 

 

5 razlogov, zakaj potrebujete sintetične podatke
Slika iz Gretel.ai
 

Upoštevajte, da ta diagram ne pokriva, kako se sintetični podatki lahko uporabljajo tudi za stvari, kot so Testiranje MLOps v priporočilih.

Sintetični podatki imajo potencial za uporabo s podatki iz resničnega sveta v življenjskem ciklu strojnega učenja (na sliki zgoraj), da bi organizacijam pomagali ohraniti svoje modele dlje zmogljive. 

Generiranje sintetičnih podatkov postaja vse bolj običajno v delovnih tokovih strojnega učenja. Pravzaprav, Gartner napoveduje, da se bodo do leta 2030 sintetični podatki uporabljali veliko več kot podatki iz resničnega sveta za usposabljanje modelov strojnega učenja. Če imate kakršna koli vprašanja ali misli o tej objavi, se obrnite na spodnje komentarje ali prek Twitter.
 
 
Michael Galarnyk je strokovnjak za podatkovne znanosti in dela v Oddelkih za razvijalce pri podjetju Anyscale.
 

Časovni žig:

Več od KDnuggets