Älä koske tietojoukkoon kysymättä näitä 10 kysymystä
Oikean tietojoukon valitseminen on kriittistä tekoälyprojektisi onnistumisen kannalta.
By Sandeep Uttamchandani, toht., Sekä tuote- / ohjelmistosuunnittelija (Enggin varapuheenjohtaja) että johtaja yrityksenlaajuisten data- / tekoälyaloitteiden (CDO) toiminnassa
Data on tekoälytuotteen sydän. Tietojen virittäminen korostuu yhä enemmän mallien virittämisen sijasta - Andrew Ng as datakeskeinen tekoäly. Kokemukseni mukaan tekoälyprojektin onnistuminen tai epäonnistuminen voidaan ennustaa käytettävien tietojoukkojen avulla.
Jos olet tietotieteilijä/tekoälyinsinööri, joka haluaa rakentaa uuden mallin, tai tietoinsinööri, joka työskentelee putkilinjojen rakentamisessa tekoälyprojektia varten, kysy jokaiselta valitsemaltasi tietojoukolta seuraavat kysymykset välttääksesi päänsärkyä ja menetettyjä odotuksia myöhemmin tekoälyn elinkaaren aikana.
1. Onko tietojoukon määritteiden merkitys dokumentoitu?
Ennen big data -kautta tiedot kuratoitiin ennen niiden lisäämistä keskustietovarastoon. Tätä kutsutaan skeema kirjoitettaessa. Nykyään lähestymistapa datajärvien kanssa on ensin koota tiedot ja sitten päätellä tietojen merkitys kulutuksen ajankohtana. Tätä kutsutaan kaaviona luettavaksi.
Tietoattribuutteja dokumentoidaan harvoin oikein tai pidetään ajan tasalla. Vaikka asiakirjojen saaminen voidaan nähdä projektia hidastavana askeleena, siitä tulee itse asiassa äärimmäisen kriittinen mallin virheenkorjauksen aikana. Tunnista tietohallinto, joka omistaa tietojoukon, ja varmista, että he voivat toimittaa mahdollisimman tarkat asiakirjat.
2. Onko tietojoukon kootut/johdetut tiedot standardoitu?
Johdetuilla tiedoilla tai mittareilla voi olla useita totuuden lähteitä ja liiketoiminnan määritelmiä. Varmista, että mittareilla on selkeä dokumentoitu liiketoiminnan määritelmä (joskus epäsuorasti ETL: ssä)
3. Onko tietokokonaisuus tietosuojamääräysten (kuten GDPR, CCPA jne.) Mukainen?
Tietosuojalainsäädännöstä on tulossa kriittinen-on tärkeää seurata ja valvoa niitä mallikoulutuksen ja uudelleenkoulutuksen aikana. Tietoa koskevia oikeussäädöksiä, kuten GDPR, CCPA, Brasilian yleinen tietosuojalaki, Intian henkilötietosuojalaki ja useita muita, on kasvava määrä, kuten kuvassa näkyy. Nämä lait edellyttävät asiakastietojen keräämistä, käyttöä ja poistamista heidän mieltymystensä perusteella. Siellä on eri näkökohtia Tietojen käyttöoikeudet, nimittäin: Tietojen kerääminen, Tietojen käyttö, Tietojen oikeuksien poistaminen, Tietojen käyttöoikeudet.
4. Onko olemassa selkeä muutoksenhallintaprosessi, jossa tietojoukon kaavan/määritelmän muutokset ilmoitetaan kaikille kuluttajille?
On hyvin yleistä, että kaavan muutokset lähteessä ovat koordinoimattomia jatkokäsittelyn kanssa. Muutokset voivat vaihdella kaavamuutoksista (olemassa olevien putkilinjojen katkaisemisesta) vaikeasti havaittaviin tietoattribuuttien semaattisiin muutoksiin. Lisäksi, kun liiketoiminnan mittarit muuttuvat, määritelmien versiot ovat puutteellisia.
5. Mikä on asiayhteys, jossa aineisto kerättiin?
Tietojoukot harvoin tallentavat lopullista totuutta tilastollisesta näkökulmasta. Ne tallentavat vain määritteet, joita sovellusten omistajat tarvitsivat tuolloin käyttötapaukseensa. On tärkeää analysoida tietojoukkoja puolueellisuuden ja pudonneiden tietojen varalta. Tietojoukon kontekstin ymmärtäminen on ylikriittistä.
6. Onko data IID?
- implisiittinen oletus mallikoulutuksessa on, että tiedot ovat IID (Riippumaton ja identtisesti hajautettu). Lisäksi tiedoilla on viimeinen voimassaolopäivä. Asiakaskäyttäytyminen 10 vuoden takaa ei ehkä ole edustavaa.
7. Onko tietokokonaisuus testattu/validoitu järjestelmällisten virheiden varalta tiedonkeruussa?
Jos tietojoukon virheet ovat satunnaisia, ne ovat vähemmän haitallisia mallikoulutukselle. Mutta jos on sellainen vika, että tietty rivi tai sarake puuttuu järjestelmällisesti, se voi johtaa tietojoukon harhaan. Esimerkiksi asiakasklikkausten laitetiedot puuttuvat käyttäjäluokasta virheen vuoksi, tietojoukko ei edusta todellisuutta.
8. Valvotaanko tietojoukkoa jakelun äkillisten muutosten varalta?
Tietojoukot kehittyvät jatkuvasti. Tietojen jakelun analysointi ei ole kertaluonteinen toiminto, jota tarvitaan vain mallin luomisen yhteydessä. Sen sijaan on seurattava jatkuvasti tietojoukkoja ajelehtimista varten, erityisesti verkkokoulutusta varten.
9. Miten poikkeamat käsitellään tietojoukossa?
Poikkeamat eivät ole välttämättä huonoja, ja ne ovat joskus välttämättömiä mallin rakentamiseksi oikein. On tärkeää ymmärtää, suodatetaanko poikkeamat keräyksen aikana ja mikä on logiikka/kriteerit.
10. Onko tietojoukolla määrätty tietojenhoitaja? (soveltuu isommille ryhmille)
Tietojoukot ovat hyödyttömiä, jos niitä ei voida ymmärtää. Sarakkeiden merkityksen muuttaminen on usein "häviävä taistelu". Tärkeintä on varmistaa, että tietohallinnosta vastaa tietohallinto, joka päivittää ja kehittää dokumentaation tiedot.
Kokemukseni mukaan vastaus näihin kysymyksiin auttaa paljastamaan ennakoivasti tunnetut tunnetut, tunnetut tuntemattomat ja tuntemattomat tuntemattomat tietojoukossa. Ei ole tärkeää, että jokaiseen kysymykseen on myönteinen vastaus. Pikemminkin näiden vastausten huomioon ottaminen voi nopeuttaa tekoälyn elinkaarta ja välttää sokeita kulmia.
Bio: Sandeep Uttamchandani, toht.: Data + AI / ML - sekä tuote- / ohjelmistosuunnittelija (Engg: n varapuheenjohtaja) että johtaja yrityksenlaajuisten data- / tekoälyaloitteiden (CDO) toiminnassa | O'Reilly-kirjailija | Perustaja - DataForHumanity (voittoa tavoittelematon)
Related:
Suosituimmat tarinat viimeisen 30 päivän aikana | |||
---|---|---|---|
|
Lähde: https://www.kdnuggets.com/2021/09/dataset-asking-10-questions.html
- "
- &
- pääsy
- Tili
- AI
- Kaikki
- analyysi
- Andrew ng
- Hakemus
- sovellukset
- Taistelu
- Big Data
- lasku
- Vika
- rakentaa
- rakentaja
- Rakentaminen
- liiketoiminta
- CCPA
- muuttaa
- Sarake
- Yhteinen
- Kuluttajat
- kulutus
- tiedot
- tietosuoja
- tietojenkäsittely
- tietovarasto
- syvä oppiminen
- putosi
- insinööri
- Tekniikka
- jne.
- kunnostautua
- experience
- tutkimus
- Kasvot
- Epäonnistuminen
- Kuva
- Etunimi
- perustaja
- GDPR
- general
- Kasvava
- päänsärkyä
- Miten
- HTTPS
- tunnistaa
- Intia
- IT
- avain
- Lait
- johtaa
- oppiminen
- linja
- koneoppiminen
- johto
- Metrics
- Microsoft
- malli
- nimittäin
- voittoa tavoittelematon
- verkossa
- avata
- toiminta
- Muuta
- omistajat
- henkilökohtaiset tiedot
- salkku
- Tuotteet
- projekti
- suojaus
- Python
- alue
- Todellisuus
- asiakirjat
- määräykset
- käänteinen
- tiede
- tutkijat
- taitoja
- hidastaa
- nopeus
- tarinat
- menestys
- Testaus
- Lähde
- aika
- ylin
- kosketa
- raita
- koulutus
- Päivitykset
- Varasto
- verkko
- Mikä on
- KUKA
- sisällä
- X
- vuotta
- youtube