Ne érintsen meg egy adatkészletet anélkül, hogy feltenné ezt a 10 kérdést

Címkék: Datasets, Nemzetközi disztribúció, Kiugró, Adatvédelem, Szabványosítás

A megfelelő adatkészlet kiválasztása kulcsfontosságú az AI-projekt sikeréhez.

By Sandeep Uttamchandani, Ph.D., egyrészt termék-/szoftverkészítő (az Engg alelnöke), másrészt vezető a vállalati szintű adat- és mesterséges intelligencia kezdeményezésekben (CDO)

Adatfeltárás

Az adatok az AI-termék szíve. Egyre nagyobb hangsúlyt kap az adatok hangolása a modellek hangolása helyett – Andrew Ng alkotta meg. adatközpontú AI. Tapasztalataim szerint egy mesterséges intelligencia projekt sikere vagy kudarca előre jelezhető a használt adatkészletek alapján.

Ha Ön egy adattudós/AI-mérnök, aki új modellt szeretne építeni, vagy adatmérnök, aki egy mesterségesintelligencia-projekt csővezetékeinek kiépítésén dolgozik, minden kiválasztott adatkészlethez tegye fel a következő kérdéseket, hogy elkerülje a fejfájást és az AI életciklusának későbbi elmulasztását.

1. Dokumentálva van-e az adatkészlet-attribútumok jelentése?

A big data korszak előtt az adatokat a központi adattárházba való felvétel előtt válogatták. Ezt séma-on-write néven ismerjük. Ma az adattavakkal az a megközelítés, hogy először összesítik az adatokat, majd következtetnek az adatok jelentésére a fogyasztás időpontjában. Ezt séma-on-read néven ismerjük.

Az adatattribútumokat ritkán dokumentálják megfelelően vagy naprakészen tartják. Bár a dokumentáció megléte a projektet lassító lépésnek tekinthető, valójában rendkívül kritikussá válik a modellhibakeresés során. Azonosítsa az adatfelügyelőt, aki az adatkészlet tulajdonosa, és gondoskodjon arról, hogy a legpontosabb dokumentációt tudja nyújtani.

2. Az adathalmaz összesített/származott mérőszámai szabványosak?

A származtatott adatoknak vagy mérőszámoknak több igazságforrásuk és üzleti definíciójuk lehet. Győződjön meg arról, hogy a mutatók világosan dokumentált üzleti definícióval rendelkeznek (néha implicit az ETL-n belül)

3. Az adatkészlet megfelel-e az adatjogokra vonatkozó előírásoknak (például GDPR, CCPA stb.)

Az adatjogi szabályozás mostanra kritikus fontosságúvá válik – fontos ezek nyomon követése és betartatása a modellképzés és az újraképzés során. Egyre több adatjogi szabályozás létezik, mint például a GDPR, a CCPA, a brazil általános adatvédelmi törvény, az indiai személyes adatok védelméről szóló törvény és számos más, amint az ábrán látható. Ezek a törvények megkövetelik az ügyfelek adatainak összegyűjtését, felhasználását és törlését az ő preferenciáik alapján. Vannak különböző szempontok adatjogok, nevezetesen: Adatjogok gyűjtése, Adatjogok felhasználása, Adatjogok törlése, Adatokhoz való hozzáférés.

4. Létezik-e olyan egyértelmű változáskezelési folyamat, amely szerint az adatkészlet-séma/definíciók változásairól minden fogyasztó értesítést kap?

Nagyon gyakori, hogy a forrásnál végrehajtott sémamódosítások nincsenek összehangolva a későbbi feldolgozással. A változtatások a sémamódosításoktól (meglévő folyamatok megszakításától) az adatattribútumok nehezen észlelhető szematikai változásáig terjedhetnek. Továbbá, amikor az üzleti mutatók változnak, hiányzik a definíciók verziószáma.

5. Mi az a kontextus, amelyben az adatkészletet gyűjtötték?

Az adatkészletek ritkán ragadják meg a végső igazságot statisztikai szempontból. Csak azokat az attribútumokat rögzítik, amelyeket az alkalmazás tulajdonosai akkoriban igényeltek a használati esetükhöz. Fontos, hogy elemezze az adatkészleteket torzítás és kiesett adatok szempontjából. Az adatkészlet kontextusának megértése szuperkritikus.

6. Az adat IID?

A implicit feltételezés a modellképzésről az, hogy az adatok az IID (Független és azonos elosztású). Ezenkívül az adatoknak van lejárati dátuma. Előfordulhat, hogy az ügyfelek 10 évvel ezelőtti viselkedésére vonatkozó feljegyzések nem reprezentatívak.

7. Az adatkészletet tesztelték/validálták az adatgyűjtés szisztematikus hibáira?

Ha az adatkészlet hibái véletlenszerűek, akkor kevésbé károsak a modellképzésre. De ha olyan hiba van, hogy egy adott sor vagy oszlop szisztematikusan hiányzik, az torzításhoz vezethet az adatkészletben. Például egy hiba miatt hiányoznak az ügyfélkattintások eszközadatai egy felhasználói kategóriánál, így az adatkészlet nem reprezentálja a valóságot.

8. Figyelik az adatkészletet a hirtelen eloszlásváltozásokra?

Az adatkészletek folyamatosan fejlődnek. Az adateloszlás elemzése nem egyszeri tevékenység, amelyre csak a modellkészítéskor van szükség. Ehelyett folyamatosan figyelni kell az adatkészleteket a sodródások szempontjából, különösen az online képzések esetében.

9. Hogyan kezelik a kiugró értékeket az adatkészletben?

A kiugró értékek nem feltétlenül rosszak, és néha elengedhetetlenek a modell helyes felépítéséhez. Fontos megérteni, hogy a kiugró értékeket a rendszer kiszűri-e a gyűjtés során, és mi a logika/kritérium.

10. Rendelkezik az adatkészlethez hozzárendelt Data Steward? (nagyobb létszámú csapatok esetén is alkalmazható)

Az adatkészletek haszontalanok, ha nem érthetők. Az oszlopok jelentésének visszafejtése gyakran „vesztes csata”. A legfontosabb annak biztosítása, hogy legyen egy Data Steward felelős az adatkészletért, hogy frissítse és fejlessze a dokumentáció részleteit.

Tapasztalataim szerint ezekre a kérdésekre adott válasz segít a proaktív feltárásban ismert ismertek, ismert ismeretlenek és ismeretlen ismeretlenek az adatkészletben. Nem fontos, hogy minden kérdésre igenlő válasz legyen. E válaszok figyelembevétele inkább felgyorsíthatja a mesterséges intelligencia életciklusát, és segíthet elkerülni a holtfoltokat.

Bio: Sandeep Uttamchandani, Ph.D.: Data + AI/ML – Termék-/szoftverkészítő (az Engg alelnöke) és vezető szerepet tölt be a vállalati szintű adat- és mesterségesintelligencia-kezdeményezésekben (CDO) | O'Reilly könyvszerző | Alapító – DataForHumanity (non-profit)

Kapcsolódó:

= Előző üzenet

Következő üzenet =>

Legnépszerűbb történetek az elmúlt 30 napból

Legnepszerubb
Olvas Excel fájlokat Python segítségével? Létezik 1000x gyorsabb út A Microsoft Excel és a Word automatizálása Python használatával Az adatmérnöki készségekkel nem rendelkező adattudósok szembesülnek a kemény igazsággal Lenyűgöző webalkalmazások létrehozása adattudományi projektjeihez Adattudományi portfólió, amely megadja a munkát

Leginkább megosztott
A Machine & Deep Learning Compendium nyitott könyve Az adatmérnöki készségekkel nem rendelkező adattudósok szembesülnek a kemény igazsággal A hipotézisvizsgálat magyarázata Data Science Cheat Sheet 2.0 8 mélytanulási projektötlet kezdőknek