Kan Data Governance adressere AI Fatigue? - KDnuggets

Kan Data Governance adressere AI Fatigue? – KDnuggets

Kilde node: 3052543

Kan Data Governance adressere AI Fatigue?
Bilde av forfatter
 

Data Governance og AI fatigue høres ut som to forskjellige konsepter, men det er en iboende sammenheng mellom de to. For å forstå det bedre, la oss starte med definisjonen deres. 

Det har vært kjernefokuset i dataindustrien i lang tid.

Google sier det godt – «Datastyring er alt du gjør for å sikre at data er sikre, private, nøyaktige, tilgjengelige og brukbare. Det innebærer å sette interne standarder – datapolicyer – som gjelder hvordan data samles inn, lagres, behandles og kastes.»

Som denne definisjonen fremhever, handler datastyring om å administrere data – nettopp motoren som driver AI-modeller.

Nå som de første tegnene på koblingen mellom datastyring og AI har begynt å dukke opp, la oss relatere det til AI-tretthet. Selv om navnet gir det bort, sikrer det å fremheve årsakene som fører til slik tretthet konsekvent bruk av dette begrepet gjennom hele innlegget.  

AI-tretthet setter inn på grunn av tilbakeslagene og utfordringene organisasjoner, utviklere eller team står overfor, noe som ofte fører til mislykket verdirealisering eller implementering av AI-systemer.

Det starter stort sett med urealistiske forventninger til hva AI er i stand til. For sofistikerte teknologier som AI, må sentrale interessenter tilpasse seg ikke bare egenskapene og mulighetene til AI, men også dens begrensninger og risikoer.

Når vi snakker om risiko, blir etikk ofte ansett som en ettertanke som fører til skroting av ikke-kompatible AI-initiativer.

Du må lure på hvilken rolle datastyring spiller for å forårsake AI-tretthet – premisset for dette innlegget.

Det er dit vi er på vei videre. 

AI fatigue kan grovt sett kategoriseres som pre-distribusjon og post-distribusjon. La oss først fokusere på pre-distribusjon først.

Pre-distribusjon

Ulike faktorer bidrar til å oppgradere en Proof of Concept (PoC) til distribusjon, for eksempel:

  • Hva prøver vi å løse?
  • Hvorfor er det et overbevisende problem å prioritere nå?
  • Hvilke data er tilgjengelige?
  • Er det ML-løselig i utgangspunktet?
  • Har data et mønster?
  • Kan fenomenet gjentas?
  • Hvilke tilleggsdata vil løfte modellens ytelse?

 

Kan Data Governance adressere AI Fatigue?
Bilde fra Freepik 
 

Når vi har evaluert at problemet best kan løses ved hjelp av ML-algoritmer, utfører datavitenskapsteamet en utforskende dataanalyse. Mange underliggende datamønstre avdekkes på dette stadiet, og fremhever om de gitte dataene er rike på signalet. Det hjelper også med å lage konstruerte funksjoner for å øke hastigheten på læringsprosessen til algoritmen.

Deretter bygger teamet den første grunnlinjemodellen, og finner ofte ut at den ikke presterer opp til det akseptable nivået. En modell hvis utgang er like god som en myntflipp gir ingen verdi. Dette er et av de første tilbakeslagene, også kjent som leksjoner, mens du bygger ML-modeller.

Organisasjoner kan flytte fra ett forretningsproblem til et annet, noe som forårsaker tretthet. Likevel, hvis de underliggende dataene ikke har et rikt signal, kan ingen AI-algoritme bygge på det. Modellen må lære de statistiske assosiasjonene fra treningsdataene for å generalisere på usett data.

Etter distribusjon

Til tross for at den trente modellen viser lovende resultater på valideringssettet, i tråd med de kvalifiserende forretningskriteriene, for eksempel 70 % presisjon, kan det fortsatt oppstå tretthet hvis modellen ikke klarer å yte tilstrekkelig i produksjonsmiljøet.

Denne typen AI-tretthet kalles post-distribusjonsfasen. 

Utallige årsaker kan føre til dårligere ytelse, der dårlig datakvalitet er det vanligste problemet som plager modellen. Det begrenser modellens evne til nøyaktig å forutsi målresponsen i fravær av avgjørende attributter. 

Tenk på når en av de essensielle funksjonene, som bare manglet 10 % i treningsdata, nå blir null 50 % av tiden i produksjonsdataene, noe som fører til feilaktige spådommer. Slike gjentakelser og anstrengelser for å sikre konsekvente modeller bygger tretthet hos dataforskerne og forretningsteamene, og svekker dermed tilliten til datarørledningene og risikerer investeringene som er gjort i prosjektet.

Robuste datastyringstiltak er avgjørende for å takle begge typer AI-tretthet. Gitt at dataene er kjernen i ML-modeller, er signalrike, feilfrie og høykvalitetsdata et must for å lykkes med et ML-prosjekt. Å håndtere AI-tretthet krever et sterkt fokus på datastyring. Så vi må jobbe strengt for å sikre riktig datakvalitet, legge grunnlaget for å bygge state-of-the-art modeller og levere pålitelig forretningsinnsikt.

Datakvalitet

Datakvalitet, nøkkelen til blomstrende datastyring, er en kritisk suksessfaktor for maskinlæringsalgoritmer. Organisasjoner må investere i datakvalitet, for eksempel å publisere rapporter til dataforbrukerne. I datavitenskapelige prosjekter, tenk på hva som skjer når data av dårlig kvalitet kommer til modellene, noe som kan føre til dårlig ytelse.

Bare under feilanalysen ville teamene få identifisert datakvalitetsbekymringene, som, når de sendes for å fikses oppstrøms, ender opp med å forårsake tretthet blant teamene.

Det er åpenbart ikke bare innsatsen som er brukt, men mye tid går tapt før de riktige dataene begynner å strømme inn.

Derfor anbefales det alltid å fikse dataproblemer ved kilden for å forhindre slike tidkrevende iterasjoner. Til slutt refererer de publiserte datakvalitetsrapportene til datavitenskapsteamet (eller, for den saks skyld, andre nedstrømsbrukere og dataforbrukere) med en forståelse av den akseptable kvaliteten på de innkommende dataene.

Uten datakvalitet og styringstiltak ville dataforskere blitt overbelastet med dataproblemer, noe som bidrar til mislykkede modeller som forårsaker AI-tretthet. 

Innlegget fremhevet de to stadiene der AI-tretthet setter inn og presenterte hvordan datastyringstiltak som datakvalitetsrapporter kan være en muliggjører for å bygge pålitelige og robuste modeller.

Ved å etablere et solid grunnlag gjennom datastyring, kan organisasjoner bygge et veikart for vellykket og sømløs AI-utvikling og -adopsjon, og skape entusiasme.

For å sikre at innlegget gir en helhetlig oversikt over ulike måter å håndtere AI-tretthet på, legger jeg også vekt på organisasjonskulturens rolle, som, kombinert med andre beste praksiser som datastyring, vil gjøre datavitenskapsteam i stand til å bygge meningsfulle AI-bidrag raskere og raskere.
 
 

Vidhi Chugh er en AI-strateg og en digital transformasjonsleder som jobber i skjæringspunktet mellom produkt, vitenskap og ingeniørfag for å bygge skalerbare maskinlæringssystemer. Hun er en prisvinnende innovasjonsleder, en forfatter og en internasjonal foredragsholder. Hun er på et oppdrag for å demokratisere maskinlæring og bryte sjargongen for at alle skal være en del av denne transformasjonen.

Tidstempel:

Mer fra KDnuggets