Ärge puudutage andmestikku ilma neid 10 küsimust esitamata
Õige andmestiku valimine on teie tehisintellektiprojekti edu jaoks ülioluline.
By Sandeep Uttamchandani, Ph.D., nii toote-/tarkvaraehitaja (Enggi asepresident) kui ka juht kogu ettevõtte andmete/AI algatustes (CDO)
Andmed on tehisintellekti toote süda. Mudelite häälestamise asemel pannakse üha enam rõhku andmete häälestamisele – selle lõi Andrew Ng kui andmekeskne AI. Minu kogemuse kohaselt saab tehisintellekti projekti edu või ebaõnnestumist ennustada kasutatavate andmekogumite järgi.
Kui olete andmeteadlane/AI-insener, kes soovib luua uut mudelit, või andmeinsener, kes töötab tehisintellektiprojekti jaoks torujuhtmete ehitamisel, esitage iga valitud andmekogumi puhul järgmised küsimused, et vältida peavalu ja ootuste kaotamist hilisemas tehisintellekti elutsüklis.
1. Kas andmestiku atribuutide tähendus on dokumenteeritud?
Enne suurandmete ajastut kureeriti andmeid enne kesksesse andmelattu lisamist. Seda nimetatakse skeemiks kirjutamisel. Tänapäeval on andmejärvede lähenemisviisiks esmalt andmed koondada ja seejärel järeldada andmete tähendus tarbimise ajal. Seda nimetatakse lugemisel skeemiks.
Andmete atribuute dokumenteeritakse harva õigesti või ajakohastatakse. Kuigi dokumentatsiooni võib vaadelda kui sammu, mis aeglustab projekti, muutub see mudeli silumisel tegelikult äärmiselt kriitiliseks. Tehke kindlaks andmehaldur, kellele andmestik kuulub, ja veenduge, et nad suudavad esitada kõige täpsema dokumentatsiooni.
2. Kas andmekogumis sisalduvad koond-/tuletatud mõõdikud on standarditud?
Tuletatud andmetel või mõõdikutel võib olla mitu tõeallikat ja ärimääratlusi. Veenduge, et mõõdikutel oleks selge dokumenteeritud ettevõtte määratlus (mõnikord kaudne ETL-is).
3. Kas andmestik vastab andmeõiguste eeskirjadele (nt GDPR, CCPA jne)
Andmeõiguste eeskirjad muutuvad nüüd kriitiliseks – mudelikoolituse ja ümberõppe ajal on oluline neid jälgida ja jõustada. Nagu on näidatud joonisel, on üha rohkem andmeõiguste eeskirju, nagu GDPR, CCPA, Brasiilia andmekaitse üldseadus, India isikuandmete kaitse seaduse eelnõu ja mitmed teised. Need seadused nõuavad klientide andmete kogumist, kasutamist ja kustutamist vastavalt nende eelistustele. Seal on erinevaid aspekte andmeõigustest, nimelt: Andmeõiguste kogumine, Andmeõiguste kasutamine, Andmeõiguste kustutamine, Andmeõigustele juurdepääs.
4. Kas on olemas selge muudatuste haldusprotsess, mille kohaselt teavitatakse kõiki tarbijaid andmestiku skeemi/definitsiooni muudatustest?
On väga tavaline, et skeemi muudatused allikas ei ole allavoolu töötlemisega kooskõlastatud. Muudatused võivad ulatuda skeemimuudatustest (olemasolevate torujuhtmete katkestamine) kuni raskesti tuvastatavate semaatiliste muutusteni andmeatribuutides. Samuti puudub ärimõõdikute muutumisel definitsioonide versioonide koostamine.
5. Millises kontekstis andmestik koguti?
Andmekogumid kajastavad harva lõplikku tõde statistilisest vaatenurgast. Need hõivavad ainult atribuudid, mida rakenduse omanikud sel ajal oma kasutusjuhtumi jaoks nõudsid. Oluline on analüüsida andmekogumeid kallutatuse ja väljalangevate andmete suhtes. Andmestiku konteksti mõistmine on ülikriitiline.
6. Kas andmed on IID?
. kaudne oletus mudelikoolituse kohta on see, et andmed on IID (Sõltumatu ja identselt jaotatud). Samuti on andmetel aegumiskuupäev. 10 aasta tagused kliendikäitumise andmed ei pruugi olla representatiivsed.
7. Kas andmestikku testitakse/valideeritakse andmete kogumise süstemaatiliste vigade suhtes?
Kui andmestiku vead on juhuslikud, on need mudelikoolituse jaoks vähem kahjulikud. Kui aga esineb selline viga, et konkreetne rida või veerg on süstemaatiliselt puudu, võib see põhjustada andmestiku nihke. Näiteks puuduvad kasutajakategoorias vea tõttu seadme üksikasjad klientide klikkide kohta, andmestik ei esinda tegelikkust.
8. Kas andmestikku jälgitakse äkiliste jaotusmuutuste suhtes?
Andmekogud arenevad pidevalt. Andmete jaotuse analüüs ei ole ühekordne tegevus, mis on vajalik ainult mudeli loomise ajal. Selle asemel on vaja pidevalt jälgida andmekogumeid triivide jaoks, eriti veebipõhise koolituse jaoks.
9. Kuidas käsitletakse andmekogus kõrvalekaldeid?
Kõrvalekalded ei pruugi olla halvad ja mõnikord on need mudeli õigeks koostamiseks hädavajalikud. Oluline on mõista, kas kõrvalekaldeid kogumise ajal filtreeritakse ja mis on loogika/kriteeriumid.
10. Kas andmestikule on määratud andmehaldur? (kehtib suurematele meeskondadele)
Andmekogumid on kasutud, kui neid ei saa mõista. Veergude tähenduse ümberpööramine on sageli "kaotuslik lahing". Peamine on tagada, et dokumentatsiooni üksikasjade värskendamiseks ja arendamiseks andmekogumi eest vastutaks andmehaldur.
Minu kogemuse kohaselt aitab vastus neile küsimustele ennetavalt avastada tuntud tuntud, teadaolevad tundmatud ja tundmatud tundmatud andmekogus. Ei ole oluline, et igale küsimusele oleks jaatav vastus. Pigem võib nende vastuste arvessevõtmine kiirendada tehisintellekti elutsüklit ja aidata vältida pimealasid.
Bio: Sandeep Uttamchandani, Ph.D.: Andmed + AI/ML – nii toote/tarkvara koostaja (Enggi asepresident) kui ka juht kogu ettevõtte andmete/AI algatustes (CDO) | O'Reilly raamatu autor | Asutaja – DataForHumanity (mittetulunduslik)
Seotud:
Allikas: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- juurdepääs
- konto
- AI
- Materjal: BPA ja flataatide vaba plastik
- analüüs
- Andrew ng
- taotlus
- apps
- lahing
- Big andmed
- arve
- Bug
- ehitama
- ehitaja
- Ehitus
- äri
- CCPA
- muutma
- Veerg
- ühine
- Tarbijad
- tarbimine
- andmed
- andmekaitse
- andmeteadus
- andmekogus
- sügav õpe
- langes
- insener
- Inseneriteadus
- jms
- Excel
- kogemus
- uurimine
- nägu
- ebaedu
- Joonis
- esimene
- Asutaja
- GDPR
- Üldine
- Kasvavad
- peavalu
- Kuidas
- HTTPS
- identifitseerima
- India
- IT
- Võti
- Seadused
- viima
- õppimine
- joon
- masinõpe
- juhtimine
- Meetrika
- Microsoft
- mudel
- nimelt
- mittetulunduslik
- Internetis
- avatud
- tegutsevad
- teised
- omanikud
- isiklikud andmed
- portfell
- Toode
- projekt
- kaitse
- Python
- valik
- Reaalsus
- andmed
- määrused
- tagasikäik
- teadus
- teadlased
- oskused
- Aeglustub
- kiirus
- Lood
- edu
- Testimine
- Allikas
- aeg
- ülemine
- puudutama
- jälgida
- koolitus
- Värskendused
- Ladu
- web
- Mis on
- WHO
- jooksul
- X
- aastat
- youtube