Ali lahko upravljanje podatkov odpravi utrujenost AI? - KDnuggets

Ponovno objavil Platon

Spremljevalci: 0

Ali lahko upravljanje podatkov odpravi utrujenost AI?
Slika avtorja

Upravljanje podatkov in utrujenost AI se slišita kot dva različna koncepta, a med njima obstaja notranja povezava. Da bi jih bolje razumeli, začnimo z njihovo definicijo.

To je že dolgo v središču podatkovne industrije.

google dobro povedano – »Upravljanje podatkov je vse, kar naredite, da zagotovite, da so podatki varni, zasebni, točni, na voljo in uporabni. Vključuje določanje notranjih standardov – pravilnikov o podatkih – ki veljajo za zbiranje, shranjevanje, obdelavo in odstranjevanje podatkov.«

Kot poudarja ta definicija, gre pri upravljanju podatkov za upravljanje podatkov – natančno motorjev, ki poganjajo modele umetne inteligence.

Zdaj, ko so se začeli pojavljati prvi znaki povezave med upravljanjem podatkov in umetno inteligenco, povežimo to z utrujenostjo umetne inteligence. Čeprav ime to izda, poudarjanje razlogov, ki vodijo do takšne utrujenosti, zagotavlja dosledno uporabo tega izraza v celotni objavi.

Utrujenost z umetno inteligenco nastopi zaradi zastojev in izzivov, s katerimi se soočajo organizacije, razvijalci ali ekipe, kar pogosto vodi do neuspešne realizacije vrednosti ali implementacije sistemov umetne inteligence.

Večinoma se začne z nerealnimi pričakovanji o tem, česa je AI sposoben. Pri sofisticiranih tehnologijah, kot je umetna inteligenca, se morajo ključne zainteresirane strani uskladiti ne le z zmogljivostmi in možnostmi umetne inteligence, temveč tudi z njenimi omejitvami in tveganji.

Ko govorimo o tveganjih, se etika pogosto obravnava kot naknadna misel, ki vodi v opustitev neskladnih pobud za umetno inteligenco.

Zagotovo se sprašujete o vlogi upravljanja podatkov pri povzročanju utrujenosti AI – predpostavka te objave.

Tja gremo naslednjič.

Utrujenost AI lahko na splošno kategoriziramo kot pred uvedbo in po uvedbi. Najprej se osredotočimo na predhodno uvajanje.

Preduvedba

Različni dejavniki prispevajo k prehodu dokazila o konceptu (PoC) do uvedbe, kot so:

Kaj poskušamo rešiti?
Zakaj je določitev prioritet zdaj nujna težava?
Kateri podatki so na voljo?
Je sploh rešljiv z ML?
Ali imajo podatki vzorec?
Ali je pojav ponovljiv?
Kateri dodatni podatki bi povečali zmogljivost modela?

Ali lahko upravljanje podatkov odpravi utrujenost AI?
Slika iz Freepik

Ko ocenimo, da je težavo mogoče najbolje rešiti z algoritmi ML, ekipa podatkovne znanosti izvede raziskovalno analizo podatkov. Na tej stopnji so razkriti številni osnovni vzorci podatkov, ki poudarjajo, ali so podani podatki bogati s signalom. Pomaga tudi pri ustvarjanju inženirskih funkcij za pospešitev procesa učenja algoritma.

Nato ekipa zgradi prvi osnovni model, pri čemer pogosto ugotovi, da ne deluje na sprejemljivi ravni. Model, katerega rezultat je tako dober kot vržen kovanec, ne dodaja nobene vrednosti. To je ena prvih neuspehov, imenovanih tudi lekcije, med gradnjo modelov ML.

Organizacije se lahko premikajo z ene poslovne težave na drugo, kar povzroča utrujenost. Kljub temu, če osnovni podatki ne prenašajo bogatega signala, noben algoritem AI ne more graditi na njih. Model se mora naučiti statističnih povezav iz podatkov o usposabljanju za posploševanje nevidnih podatkov.

Po uvedbi

Kljub temu, da usposobljeni model kaže obetavne rezultate na validacijskem nizu, v skladu s kvalificiranimi poslovnimi merili, kot je 70-odstotna natančnost, lahko še vedno pride do utrujenosti, če model ne deluje ustrezno v produkcijskem okolju.

Ta vrsta utrujenosti AI se imenuje faza po uvedbi.

Nešteto razlogov lahko privede do poslabšanja delovanja, pri čemer je slaba kakovost podatkov najpogostejša težava, ki pesti model. Omejuje zmožnost modela, da natančno napove ciljni odziv v odsotnosti ključnih atributov.

Razmislite, kdaj ena od bistvenih lastnosti, ki je v podatkih o usposabljanju manjkala le 10 %, zdaj v 50 % časa v proizvodnih podatkih postane ničelna, kar vodi do napačnih napovedi. Takšne ponovitve in prizadevanja za zagotovitev dosledno delujočih modelov povzročajo utrujenost podatkovnih znanstvenikov in poslovnih skupin, s čimer zmanjšujejo zaupanje v podatkovne kanale in tvegajo naložbe v projekt.

Trdni ukrepi za upravljanje podatkov so ključni pri reševanju obeh vrst utrujenosti umetne inteligence. Glede na to, da so podatki jedro modelov ML, so podatki s signalom, brez napak in visokokakovostni nujni za uspeh projekta ML. Obravnavanje utrujenosti AI zahteva močno osredotočenost na upravljanje podatkov. Zato si moramo dosledno prizadevati, da zagotovimo pravo kakovost podatkov, s čimer postavimo temelje za izdelavo najsodobnejših modelov in zagotavljanje zaupanja vrednih poslovnih vpogledov.

Kakovost podatkov

Kakovost podatkov, ki je ključ do uspešnega upravljanja podatkov, je ključni dejavnik uspeha za algoritme strojnega učenja. Organizacije morajo vlagati v kakovost podatkov, kot je objavljanje poročil za uporabnike podatkov. Pri projektih podatkovne znanosti pomislite, kaj se zgodi, ko se podatki slabe kakovosti prebijejo do modelov, kar lahko povzroči slabo delovanje.

Šele med analizo napak bi ekipe lahko ugotovile pomisleke glede kakovosti podatkov, ki, ko so poslani v odpravo navzgor, na koncu povzročijo utrujenost med ekipami.

Jasno je, da ne gre samo za vloženi trud, ampak se izgubi veliko časa, dokler ne začnejo prihajati pravi podatki.

Zato je vedno priporočljivo, da težave s podatki odpravite pri izvoru, da preprečite tako dolgotrajne ponovitve. Sčasoma objavljena poročila o kakovosti podatkov namigujejo na ekipo podatkovne znanosti (ali, glede tega, na katere koli druge nadaljnje uporabnike in porabnike podatkov) z razumevanjem sprejemljive kakovosti vhodnih podatkov.

Brez ukrepov za kakovost podatkov in upravljanja bi bili podatkovni znanstveniki preobremenjeni s težavami s podatki, kar bi prispevalo k neuspešnim modelom, ki povzročajo utrujenost AI.

Objava je poudarila dve stopnji, na katerih nastopi utrujenost AI, in predstavila, kako lahko ukrepi za upravljanje podatkov, kot so poročila o kakovosti podatkov, omogočijo gradnjo zanesljivih in robustnih modelov.

Z vzpostavitvijo trdnih temeljev z upravljanjem podatkov lahko organizacije zgradijo načrt za uspešen in brezhiben razvoj in sprejetje umetne inteligence, kar vliva navdušenje.

Da bi zagotovili, da objava ponuja celosten pregled različnih načinov reševanja utrujenosti AI, poudarjam tudi vlogo organizacijske kulture, ki bo v kombinaciji z drugimi najboljšimi praksami, kot je upravljanje podatkov, omogočila in opolnomočila skupine za podatkovno znanost, da prej in prej ustvarijo pomembne prispevke AI. hitreje.

Vidhi Chugh je strateg za umetno inteligenco in vodja digitalne transformacije, ki dela na presečišču izdelkov, znanosti in inženiringa za izgradnjo razširljivih sistemov strojnega učenja. Je nagrajena vodja inovacij, avtorica in mednarodna govornica. Njena misija je demokratizirati strojno učenje in razbiti žargon za vse, da bi bili del te preobrazbe.