Can Data Governance Address AI Fatigue? - KDnuggets

Republicat de Platon

Urmaritori: 0

Poate guvernanța datelor să rezolve oboseala AI?
Imagine de autor

Guvernarea datelor și oboseala AI sună ca două concepte diferite, dar există o legătură intrinsecă între cele două. Pentru a înțelege mai bine, să începem cu definiția lor.

A fost punctul central al industriei de date pentru o lungă perioadă de timp.

Google spune bine – „Guvernarea datelor este tot ceea ce faci pentru a te asigura că datele sunt sigure, private, exacte, disponibile și utilizabile. Aceasta implică stabilirea de standarde interne – politici de date – care se aplică modului în care datele sunt colectate, stocate, procesate și eliminate.”

După cum evidențiază această definiție, guvernarea datelor se referă la gestionarea datelor – tocmai la motorul care conduce modelele AI.

Acum că primele semne ale legăturii dintre guvernanța datelor și inteligența artificială au început să apară, să le raportăm la oboseala inteligenței artificiale. Deși numele îl dezvăluie, evidențierea motivelor care duc la o astfel de oboseală asigură utilizarea consecventă a acestui termen pe parcursul postării.

Oboseala AI se instalează din cauza eșecurilor și provocărilor cu care se confruntă organizațiile, dezvoltatorii sau echipele, ceea ce duce adesea la realizarea nereușită a valorii sau la implementarea sistemelor AI.

În cea mai mare parte, începe cu așteptări nerealiste despre ceea ce este capabil AI. Pentru tehnologiile sofisticate, cum ar fi AI, părțile interesate cheie trebuie să se alinieze nu doar cu capabilitățile și posibilitățile AI, ci și cu limitările și riscurile sale.

Vorbind despre riscuri, etica este adesea considerată o idee ulterioară care duce la eliminarea inițiativelor neconforme ale AI.

Trebuie să vă întrebați despre rolul guvernanței datelor în cauzarea oboselii AI - premisa acestei postări.

Acolo ne îndreptăm în continuare.

Oboseala cu inteligența artificială poate fi clasificată, în linii mari, ca pre-implementare și post-implementare. Să ne concentrăm mai întâi pe pre-implementare.

Pre-implementare

Diferiți factori contribuie la gradarea unei dovezi de concept (PoC) la implementare, cum ar fi:

Ce încercăm să rezolvăm?
De ce este o problemă convingătoare să prioritizezi acum?
Ce date sunt disponibile?
Este ML-solubil în primul rând?
Datele au un model?
Este fenomenul repetabil?
Ce date suplimentare ar crește performanța modelului?

Poate guvernanța datelor să rezolve oboseala AI?
Imagine de la Freepik

Odată ce am evaluat că problema poate fi cel mai bine rezolvată folosind algoritmi ML, echipa de știință a datelor efectuează o analiză exploratorie a datelor. Multe modele de date subiacente sunt descoperite în această etapă, evidențiind dacă datele date sunt bogate în semnal. De asemenea, ajută la crearea de funcții proiectate pentru a accelera procesul de învățare al algoritmului.

Apoi, echipa construiește primul model de bază, adesea, constatând că acesta nu are performanțe până la nivelul acceptabil. Un model a cărui ieșire este la fel de bună ca o aruncare a unei monede nu adaugă nicio valoare. Acesta este unul dintre primele eșecuri, numite lecții, în timpul construirii modelelor ML.

Organizațiile pot trece de la o problemă de afaceri la alta, provocând oboseală. Totuși, dacă datele de bază nu poartă un semnal bogat, niciun algoritm AI nu se poate construi pe el. Modelul trebuie să învețe asocierile statistice din datele de antrenament pentru a generaliza pe date nevăzute.

După desfășurare

În ciuda faptului că modelul antrenat arată rezultate promițătoare pe setul de validare, în conformitate cu criteriile de afaceri de calificare, cum ar fi precizia de 70%, oboseala poate apărea în continuare dacă modelul nu reușește să funcționeze adecvat în mediul de producție.

Acest tip de oboseală AI se numește faza de post-implementare.

Nenumărate motive ar putea duce la o performanță deteriorată, unde calitatea slabă a datelor este cea mai frecventă problemă care afectează modelul. Limitează capacitatea modelului de a prezice cu precizie răspunsul țintă în absența atributelor cruciale.

Luați în considerare când una dintre caracteristicile esențiale, care lipsea doar 10% din datele de antrenament, devine acum nulă în 50% din timp în datele de producție, ceea ce duce la predicții eronate. Astfel de iterații și eforturi de a asigura modele performante în mod constant generează oboseală în oamenii de știință de date și echipele de afaceri, erodând astfel încrederea în conductele de date și riscând investițiile făcute în proiect.

Măsurile robuste de guvernare a datelor sunt esențiale în abordarea ambelor tipuri de oboseală AI. Având în vedere că datele sunt la baza modelelor ML, datele bogate în semnal, fără erori și de înaltă calitate sunt o necesitate pentru succesul unui proiect ML. Abordarea oboselii AI necesită un accent puternic pe guvernarea datelor. Așadar, trebuie să lucrăm riguros pentru a asigura calitatea corectă a datelor, punând bazele pentru a construi modele de ultimă generație și pentru a oferi informații de afaceri de încredere.

Calitatea datelor

Calitatea datelor, cheia pentru o guvernare prosperă a datelor, este un factor critic de succes pentru algoritmii de învățare automată. Organizațiile trebuie să investească în calitatea datelor, cum ar fi publicarea de rapoarte pentru consumatorii de date. În proiectele de știință a datelor, gândiți-vă la ce se întâmplă atunci când datele de proastă calitate ajung la modele, ceea ce poate duce la performanțe slabe.

Doar în timpul analizei erorilor echipele ar ajunge să identifice problemele legate de calitatea datelor, care, atunci când sunt trimise pentru a fi remediate în amonte, ajung să provoace oboseală în rândul echipelor.

În mod clar, nu este vorba doar de efortul depus, ci se pierde mult timp până când datele potrivite încep să intre.

Prin urmare, este întotdeauna recomandat să remediați problemele de date la sursă pentru a preveni astfel de iterații care necesită timp. În cele din urmă, rapoartele publicate de calitate a datelor fac aluzie la echipa de știință a datelor (sau, de altfel, la orice alți utilizatori din aval și consumatori de date) cu o înțelegere a calității acceptabile a datelor primite.

Fără măsuri de calitate și guvernanță a datelor, oamenii de știință din date ar fi suprasolicitați cu probleme de date, contribuind la modelele nereușite care conduc la oboseala AI.

Postarea a evidențiat cele două etape în care se instalează oboseala AI și a prezentat modul în care măsurile de guvernanță a datelor, cum ar fi rapoartele de calitate a datelor, pot fi un factor favorizant pentru construirea de modele de încredere și robuste.

Prin stabilirea unei baze solide prin guvernarea datelor, organizațiile pot construi o foaie de parcurs către dezvoltarea și adoptarea AI de succes și fără întreruperi, insuflând entuziasm.

Pentru a ne asigura că postarea oferă o privire de ansamblu asupra diferitelor modalități de abordare a oboselii AI, subliniez, de asemenea, rolul culturii organizaționale, care, combinată cu alte bune practici, cum ar fi guvernanța datelor, va permite și împuternici echipele din știința datelor să construiască contribuții semnificative AI mai devreme și Mai repede.

Vidhi Chugh este un strateg AI și un lider în transformarea digitală care lucrează la intersecția dintre produs, științe și inginerie pentru a construi sisteme scalabile de învățare automată. Ea este un lider în inovare premiat, o autoare și un vorbitor internațional. Ea are misiunea de a democratiza învățarea automată și de a rupe jargonul pentru ca toată lumea să facă parte din această transformare.