5 syytä, miksi tarvitset synteettistä dataa

Julkaissut Platon

seuraajia: 0

5 syytä, miksi tarvitset synteettistä dataa
Synteettiset tiedot, jotka on luotu Kubric

Tarvitset dataa koneoppimismallin kouluttamiseen. Datatieteen tehtävät eivät yleensä ole Kaggle-kilpailua, jossa sinulla on mukava suuri kuratoitu tietojoukko, joka on valmiiksi merkitty. Joskus sinun on kerättävä, järjestettävä ja puhdistettava omat tietosi. Tämä tietojen keräämis- ja merkitsemisprosessi todellisessa maailmassa voi olla aikaa vievä, raskas, kallis, epätarkka ja joskus vaarallinen. Lisäksi tämän prosessin lopussa voit päätyä siihen, että todellisessa maailmassa kohtaamasi tiedot eivät välttämättä ole niitä tietoja, joita haluat laadun, monimuotoisuuden (esim. luokkaepätasapainon) ja määrän suhteen. Alla on yleisiä ongelmia, joita voit kohdata työskennellessäsi todellisen tiedon kanssa:

Todellinen tiedonkeruu ja merkinnät eivät ole skaalattavissa
Todellisten tietojen merkitseminen manuaalisesti voi joskus olla mahdotonta
Oikeilla tiedoilla on tietosuoja- ja turvallisuusongelmia
Oikeaa dataa ei voi ohjelmoida
Pelkästään todelliseen dataan koulutettu malli ei ole tarpeeksi suorituskykyinen (esim. hidas kehitysnopeus)

Onneksi tällaiset ongelmat voidaan ratkaista synteettisellä datalla. Saatat ihmetellä, mikä on synteettinen data? Synteettinen data voidaan määritellä keinotekoisesti tuotetuksi dataksi, joka tyypillisesti luodaan algoritmeilla, jotka simuloivat todellisia prosesseja, aina muiden tienkäyttäjien käyttäytymisestä aina valon käyttäytymiseen sen vuorovaikutuksessa pintojen kanssa. Tämä viesti käsittelee reaalimaailman datan rajoituksia ja sitä, kuinka synteettiset tiedot voivat auttaa voittamaan nämä ongelmat ja parantamaan mallin suorituskykyä.

Pienille tietojoukoille on yleensä mahdollista kerätä ja merkitä tietoja manuaalisesti; Monet monimutkaiset koneoppimistehtävät vaativat kuitenkin valtavia tietojoukkoja koulutukseen. Esimerkiksi autonomisiin ajoneuvosovelluksiin koulutetut mallit tarvitsevat suuria määriä dataa, joka on kerätty autoihin tai droneihin kiinnitetyistä antureista. Tämä tiedonkeruuprosessi on hidas ja voi kestää kuukausia tai jopa vuosia. Kun raakadata on kerätty, ihmisten on tehtävä ne manuaalisesti annotoitava, mikä on myös kallista ja aikaa vievää. Ei myöskään ole takeita siitä, että merkitty data, joka tulee takaisin, on hyödyllinen harjoitustietona, koska se ei välttämättä sisällä esimerkkejä, jotka kertovat mallin tämänhetkisistä tiedon puutteista.

[upotettu sisältö][upotettu sisältö]

Näiden tietojen merkitseminen edellyttää usein, että ihmiset piirtävät käsin tarroja anturitietojen päälle. Tämä on erittäin kallista, koska korkeapalkkaiset ML-tiimit käyttävät usein suuren osan ajastaan varmistaakseen, että tarrat ovat oikein, ja lähettämällä virheet takaisin etiketöijille. Synteettisen tiedon suuri vahvuus on, että voit luoda niin paljon täydellisesti merkittyä dataa kuin haluat. Tarvitset vain tavan tuottaa laadukasta synteettistä dataa.

Avoimen lähdekoodin ohjelmisto synteettisten tietojen luomiseen: Kubric (moniobjektivideot segmentointimaskeilla, syvyyskartoilla ja optisella virtauksella) ja SDV (taulukko-, relaatio- ja aikasarjatiedot).

Jotkut (monista) yrityksistä, jotka myyvät tuotteita tai rakentavat alustoja, jotka voivat tuottaa synteettistä dataa, sisältävät Gretel.ai (synteettiset tietojoukot, jotka varmistavat todellisen tiedon yksityisyyden), NVIDIA (kaikkialla) ja Rinnakkaisalue (itsenäiset ajoneuvot). Lisää, katso synteettisen datan yritysten 2022 luettelo.

5 syytä, miksi tarvitset synteettistä dataa
Kuva Rinnakkaisalue

On joitakin tietoja, joita ihmiset eivät voi täysin tulkita ja merkitä. Alla on joitain käyttötapauksia, joissa synteettiset tiedot ovat ainoa vaihtoehto:

Tarkka arvio syvyydestä ja optinen virtaus yksittäisistä kuvista
Itseohjautuvat sovellukset, jotka käyttävät tutkatietoja, joita ihmissilmä ei näe
Luoda syvät väärennökset, joita voidaan käyttää kasvojentunnistusjärjestelmien testaamiseen

5 syytä, miksi tarvitset synteettistä dataa
Kuva Michael Galarnyk

Synteettiset tiedot ovat erittäin hyödyllisiä sovelluksissa sellaisilla aloilla, joilta et voi helposti saada todellista tietoa. Tämä sisältää tietyntyyppiset auto-onnettomuudet ja useimmat terveystietotyypit, joilla on tietosuojarajoituksia (esim. elektroniset terveyskertomukset). Viime vuosina terveydenhuollon tutkijat ovat olleet kiinnostuneita eteisvärinän (epäsäännöllisen sydämen rytmin) ennustamisesta EKG- ja PPG-signaalien avulla. Rytmihäiriöilmaisimen kehittäminen ei ole vain haastavaa, koska näiden signaalien merkitseminen on työlästä ja kallista, vaan myös yksityisyyden rajoitusten vuoksi. Tämä on yksi syy, miksi on olemassa tutkimus näiden signaalien simuloimiseksi.

On tärkeää korostaa, että todellisen tiedon kerääminen ei vie vain aikaa ja energiaa, vaan se voi olla vaarallista. Yksi robottisovellusten, kuten itseohjautuvien autojen, ydinongelmista on, että ne ovat koneoppimisen fyysisiä sovelluksia. Et voi ottaa käyttöön vaarallista mallia todellisessa maailmassa ja saada kaatumisen asiaankuuluvien tietojen puutteen vuoksi. Tietojoukon lisääminen synteettisellä tiedolla voi auttaa malleja välttämään nämä ongelmat.

Seuraavassa on joitakin yrityksiä, jotka käyttävät synteettisiä tietoja parantaakseen sovellusten turvallisuutta: Toyota, Waymoja Risteily.

5 syytä, miksi tarvitset synteettistä dataa
Kuva Rinnakkaisalue

Synteettinen kuva tukossa olevasta lapsesta polkupyörällä, joka nousee koulubussin takaa ja pyöräilee kadun toisella puolella kalifornialaistyylisessä esikaupunkiympäristössä.

Autonomiset ajoneuvosovellukset käsittelevät usein suhteellisen "epätavallisia" (suhteessa normaaleihin ajo-olosuhteisiin) tapahtumia, kuten jalankulkijoita yöllä tai pyöräilijöitä, jotka ajavat keskellä tietä. Mallit tarvitsevat usein satoja tuhansia tai jopa miljoonia esimerkkejä skenaarion oppimiseksi. Yksi suuri ongelma on, että kerätyt todelliset tiedot eivät välttämättä ole sitä, mitä etsit laadun, monimuotoisuuden (esim. luokkaepätasapaino, sääolosuhteet, sijainti) ja määrän suhteen. Toinen ongelma on, että itse ajavien autojen ja robottien kohdalla et aina tiedä, mitä tietoja tarvitset, toisin kuin perinteiset koneoppimistehtävät, joissa on kiinteitä tietojoukkoja ja kiinteitä vertailuarvoja. Vaikka jotkut tietojen lisäystekniikat, jotka muuttavat kuvia järjestelmällisesti tai satunnaisesti, ovat hyödyllisiä, nämä tekniikat voivat esitellä omia ongelmiaan.

Tässä synteettiset tiedot tulevat käyttöön. Synteettisten tietojen luontisovellusliittymien avulla voit suunnitella tietojoukkoja. Nämä sovellusliittymät voivat säästää paljon rahaa, koska robottien rakentaminen ja tietojen kerääminen todellisessa maailmassa on erittäin kallista. On paljon parempi ja nopeampi yrittää tuottaa dataa ja selvittää suunnitteluperiaatteet synteettisen tietojoukon luomisen avulla.

Seuraavat esimerkit osoittavat, kuinka ohjelmoitava synteettinen data auttaa malleja oppimaan: vilpillisten liiketoimien estäminen (American Express), parempi pyöräilijän tunnistus (rinnakkaistoimialue)ja leikkausanalyysi ja katsaus (Hutom.io).

5 syytä, miksi tarvitset synteettistä dataa
Mallin kehityssyklin vaiheet | Kuva kohteesta Jules S. Damji

Teollisuudessa niitä on monia tekijöitä, jotka vaikuttavat koneoppimisprojektin kannattavuuteen/suorituskykyyn sekä kehityksessä että tuotannossa (esim. tiedonkeruu, huomautukset, mallin koulutus, skaalaus, käyttöönotto, seuranta, mallin uudelleenkoulutus ja kehitysnopeus). Äskettäin, 18 koneoppimisinsinööriä osallistui haastattelututkimukseen jonka tavoitteena oli ymmärtää yleisiä MLOps-käytäntöjä ja haasteita organisaatioissa ja sovelluksissa (esim. autonomiset ajoneuvot, tietokonelaitteistot, vähittäismyynti, mainokset, suositusjärjestelmät jne.). Yksi tutkimuksen johtopäätöksistä oli kehitysnopeuden tärkeys, joka voidaan karkeasti määritellä kyvyksi luoda nopeasti prototyyppejä ja iteroida ideoita.

Yksi kehitysnopeuteen vaikuttava tekijä on tarve saada dataa mallin alustavan koulutuksen ja arvioinnin suorittamiseksi sekä toistuva mallin uudelleenkoulutus johtuen mallin suorituskyvyn heikkenemisestä ajan myötä datan ajautumisesta, konseptien ajautumisesta tai jopa junaharjoittelun vääristymisestä.

5 syytä, miksi tarvitset synteettistä dataa
Kuva Ilmeisesti tekoäly

Tutkimuksessa kerrottiin myös, että tämä tarve sai jotkin organisaatiot perustamaan ryhmän, joka merkitsee live-dataa usein. Tämä on kallista, aikaa vievää ja rajoittaa organisaation kykyä kouluttaa malleja uudelleen usein.

5 syytä, miksi tarvitset synteettistä dataa
Kuva Gretel.ai

Huomaa, että tämä kaavio ei kata, kuinka synteettistä dataa voidaan käyttää myös esim MLOps-testaus suosittelijoissa.

Synteettistä dataa voidaan käyttää todellisen datan kanssa koneoppimisen elinkaaren aikana (kuvassa yllä), jotta organisaatiot voivat pitää mallinsa toimivina pidempään.

Synteettisen tiedon luomisesta on tulossa yhä yleisempää koneoppimisen työnkuluissa. Itse asiassa, Gartner ennustaa, että vuoteen 2030 mennessä synteettistä dataa käytetään paljon enemmän kuin reaalimaailman dataa koneoppimismallien kouluttamiseen. Jos sinulla on kysyttävää tai ajatuksia tästä postauksesta, ota rohkeasti yhteyttä alla oleviin kommentteihin tai sen kautta Twitter.

Michael Galarnyk on Data Science -ammattilainen ja työskentelee kehittäjäsuhteissa Anyscalessa.