5 Reasons Why You Need Synthetic Data

Taasavaldanud Platon

järgijaid: 0

5 põhjust, miks vajate sünteetilisi andmeid
Sünteetilised andmed, mis on loodud Kubric

Masinõppemudeli koolitamiseks vajate andmeid. Andmeteaduse ülesanded ei ole tavaliselt Kaggle'i võistlus, kus teil on kena suur kureeritud andmestik, mis on eelnevalt märgistatud. Mõnikord peate oma andmeid koguma, korraldama ja puhastama. See andmete kogumise ja märgistamise protsess tegelikus maailmas võib olla aeganõudev, tülikas, kallis, ebatäpne ja mõnikord ohtlik. Lisaks võite selle protsessi lõpus jõuda selleni, et tegelikus maailmas leiduvad andmed ei pruugi olla need, mida soovite kvaliteedi, mitmekesisuse (nt klasside tasakaalustamatus) ja kvantiteedi osas. Allpool on toodud levinumad probleemid, mis võivad tegelike andmetega töötamisel tekkida.

Tegelik andmete kogumine ja märgistamine ei ole skaleeritav
Tegelike andmete käsitsi märgistamine võib mõnikord osutuda võimatuks
Pärisandmetel on privaatsus- ja turvaprobleemid
Tegelikud andmed ei ole programmeeritavad
Ainult reaalsetel andmetel treenitud mudel ei ole piisavalt tõhus (nt aeglane arenduskiirus)

Õnneks saab selliseid probleeme lahendada sünteetiliste andmetega. Sa võid küsida, mis on sünteetilised andmed? Sünteetilisi andmeid võib defineerida kui kunstlikult loodud andmeid, mis luuakse tavaliselt reaalseid protsesse simuleerivate algoritmide abil alates teiste liiklejate käitumisest kuni valguse käitumiseni pinnaga interaktsioonis. See postitus käsitleb reaalmaailma andmete piiranguid ja seda, kuidas sünteetilised andmed võivad aidata neid probleeme ületada ja mudeli jõudlust parandada.

Väikeste andmekogumite puhul on tavaliselt võimalik andmeid koguda ja käsitsi sildistada; aga paljud keerulised masinõppeülesanded nõuavad treenimiseks tohutuid andmekogumeid. Näiteks vajavad autonoomsete sõidukite rakenduste jaoks koolitatud mudelid suuri andmeid, mis on kogutud autode või droonide külge kinnitatud anduritelt. See andmete kogumise protsess on aeglane ja võib kesta kuid või isegi aastaid. Kui algandmed on kogutud, peavad inimesed need käsitsi märkima, mis on samuti kallis ja aeganõudev. Lisaks ei ole mingit garantiid, et tagasitulevad märgistatud andmed on koolitusandmetena kasulikud, kuna need ei pruugi sisaldada näiteid, mis teavitaksid mudeli praegustest teadmistes puudujääkidest.

[manustatud sisu][manustatud sisu]

Nende andmete märgistamine tähendab sageli, et inimesed joonistavad andurite andmetele käsitsi silte. See on väga kulukas, kuna kõrgelt tasustatud ML-meeskonnad kulutavad sageli suure osa oma ajast, et veenduda, et sildid on õiged, ja saadavad vead märgistajatele tagasi. Sünteetiliste andmete peamine tugevus on see, et saate luua nii palju täiuslikult märgistatud andmeid, kui soovite. Kõik, mida vajate, on viis kvaliteetsete sünteetiliste andmete genereerimiseks.

Avatud lähtekoodiga tarkvara sünteetiliste andmete genereerimiseks: Kubric (mitme objektiga videod segmenteerimismaskide, sügavuskaartide ja optilise vooluga) ja SDV (tabeli-, relatsiooni- ja aegridade andmed).

Mõned (paljudest) ettevõtted, kes müüvad sünteetilisi andmeid genereerivaid tooteid või loovad platvorme Gretel.ai (sünteetilised andmekogumid, mis tagavad reaalsete andmete privaatsuse), NVIDIA (omniverse) ja Paralleeldomeen (autonoomsed sõidukid). Lisateabe saamiseks vaata sünteetiliste andmetega tegelevate ettevõtete 2022. aasta nimekirja.

5 põhjust, miks vajate sünteetilisi andmeid
Pilt Paralleeldomeen

On andmeid, mida inimesed ei saa täielikult tõlgendada ja märgistada. Allpool on toodud mõned kasutusjuhtumid, kus sünteetilised andmed on ainus võimalus.

Täpne sügavuse hindamine ja optiline vool üksikutelt piltidelt
Isejuhtivad rakendused, mis kasutavad inimsilmale mittenähtavaid radariandmeid
Sügavate võltsingute genereerimine, mida saab kasutada näotuvastussüsteemide testimiseks

5 põhjust, miks vajate sünteetilisi andmeid
Image by Michael Galarnyk

Sünteetilised andmed on väga kasulikud rakenduste jaoks domeenides, kus tegelikke andmeid ei ole lihtne hankida. See hõlmab teatud tüüpi autoõnnetuste andmeid ja enamikku terviseandmete tüüpe, millel on privaatsuspiirangud (nt elektroonilised tervisekaardid). Viimastel aastatel on tervishoiuteadlasi huvitanud kodade virvendusarütmia (ebaregulaarne südamerütm) ennustamine EKG ja PPG signaalide abil. Arütmiadetektori väljatöötamine ei ole mitte ainult keeruline, kuna nende signaalide märkimine on tüütu ja kulukas, vaid ka privaatsuspiirangute tõttu. See on üks põhjus, miks on nende signaalide simuleerimise uuringud.

Oluline on rõhutada, et tegelike andmete kogumine ei võta mitte ainult aega ja energiat, vaid võib olla ka ohtlik. Üks peamisi probleeme robotirakendustega, nagu isejuhtivad autod, on see, et need on masinõppe füüsilised rakendused. Te ei saa reaalses maailmas ebaturvalist mudelit juurutada ja asjakohaste andmete puudumise tõttu tekib krahh. Andmestiku sünteetiliste andmetega täiendamine võib aidata mudelitel neid probleeme vältida.

Järgmised on mõned ettevõtted, kes kasutavad rakenduste ohutuse parandamiseks sünteetilisi andmeid. Toyota, Waymoja Cruise.

5 põhjust, miks vajate sünteetilisi andmeid
Pilt Paralleeldomeen

Sünteetiline pilt jalgrattal ummistunud lapsest, kes väljub koolibussi tagant ja sõidab rattaga üle tänava California äärelinna stiilis keskkonnas.

Autonoomsed sõidukirakendused käsitlevad sageli suhteliselt ebatavalisi (tavaliste sõidutingimustega võrreldes) sündmusi, nagu öised jalakäijad või keset teed sõitvad jalgratturid. Mudelid vajavad stsenaariumi õppimiseks sageli sadu tuhandeid või isegi miljoneid näiteid. Üks suur probleem on see, et kogutud reaalmaailma andmed ei pruugi olla need, mida otsite kvaliteedi, mitmekesisuse (nt klasside tasakaalustamatus, ilmastikutingimused, asukoht) ja kvantiteedi osas. Teine probleem on see, et isejuhtivate autode ja robotite puhul ei tea te alati, milliseid andmeid vajate, erinevalt tavapärastest fikseeritud andmekogumite ja fikseeritud võrdlusnäitajatega masinõppeülesannetest. Kuigi mõned andmete suurendamise tehnikad, mis muudavad pilte süstemaatiliselt või juhuslikult, on kasulikud, need tehnikad võivad tutvustada oma probleeme.

Siin tulevad kasutusele sünteetilised andmed. Sünteetiliste andmete genereerimise API-d võimaldavad teil koostada andmekogumeid. Need API-d võivad säästa palju raha, kuna reaalses maailmas on robotite ehitamine ja andmete kogumine väga kulukas. Palju parem ja kiirem on proovida andmeid genereerida ja tehnilisi põhimõtteid välja selgitada sünteetilise andmestiku genereerimise abil.

Järgmised näited näitavad, kuidas programmeeritavad sünteetilised andmed aitavad mudelitel õppida. pettustehingute vältimine (American Express), parem jalgratturite tuvastamine (paralleeldomeen)ja kirurgia analüüs ja ülevaade (Hutom.io).

5 põhjust, miks vajate sünteetilisi andmeid
Mudeli arendustsükli faasid | Pilt pärit Jules S. Damji

Tööstuses on palju tegureid, mis mõjutavad masinõppeprojekti elujõulisust/jõudlust nii arenduses kui ka tootmises (nt andmete kogumine, annotatsioon, mudeli koolitus, skaleerimine, juurutamine, jälgimine, mudeli ümberõpe ja arenduskiirus). Hiljuti Intervjuuuuringus osales 18 masinõppeinseneri mille eesmärk oli mõista levinud MLOps tavasid ja väljakutseid organisatsioonide ja rakenduste lõikes (nt autonoomsed sõidukid, arvuti riistvara, jaemüük, reklaamid, soovitussüsteemid jne). Üks uuringu järeldusi oli arengukiiruse tähtsus, mida võib jämedalt määratleda kui võimet kiiresti prototüüpida ja ideid korrata.

Üks arengukiirust mõjutav tegur on andmete vajadus esialgse mudeli väljaõppe ja hindamise läbiviimiseks samuti sage modellide ümberõpe mudeli jõudluse halvenemise tõttu aja jooksul andmete triivimise, kontseptsioonide triivimise või isegi koolituse serveerimise moonutuse tõttu.

5 põhjust, miks vajate sünteetilisi andmeid
Pilt Ilmselt AI

Uuring teatas ka, et see vajadus pani mõned organisatsioonid moodustama meeskonna, kes märgistaks sageli reaalajas andmeid. See on kallis, aeganõudev ja piirab organisatsiooni võimalust mudeleid sageli ümber õpetada.

5 põhjust, miks vajate sünteetilisi andmeid
Pilt Gretel.ai

Pange tähele, et see diagramm ei hõlma seda, kuidas sünteetilisi andmeid saab kasutada ka näiteks MLOps testimine soovitajates.

Sünteetilisi andmeid saab kasutada koos reaalsete andmetega masinõppe elutsüklis (ülaloleval pildil), et aidata organisatsioonidel oma mudeleid kauem töökorras hoida.

Sünteetiliste andmete genereerimine muutub masinõppe töövoogudes üha tavalisemaks. Tegelikult, Gartner ennustab, et aastaks 2030 kasutatakse masinõppemudelite koolitamiseks sünteetilisi andmeid palju rohkem kui reaalseid andmeid. Kui teil on selle postituse kohta küsimusi või mõtteid, võtke julgelt ühendust allolevates kommentaarides või läbi puperdama.

Michael Galarnyk on andmeteaduse professionaal ja töötab ettevõttes Anyscale arendajasuhete alal.