Kan Data Governance adressere AI-træthed? - KDnuggets

Kan Data Governance adressere AI-træthed? – KDnuggets

Kildeknude: 3052543

Kan Data Governance adressere AI-træthed?
Billede af forfatter
 

Data Governance og AI træthed lyder som to forskellige koncepter, men der er en iboende sammenhæng mellem de to. For at forstå det bedre, lad os starte med deres definition. 

Det har været kernefokus i dataindustrien i lang tid.

Google udtrykker det godt – "Datastyring er alt, hvad du gør for at sikre, at data er sikre, private, nøjagtige, tilgængelige og brugbare. Det involverer fastsættelse af interne standarder – datapolitikker – der gælder for, hvordan data indsamles, opbevares, behandles og bortskaffes.”

Som denne definition fremhæver, handler datastyring om styring af data – netop den motor, der driver AI-modeller.

Nu hvor de første tegn på forbindelsen mellem datastyring og AI er begyndt at dukke op, lad os relatere det til AI-træthed. Selvom navnet afslører det, sikrer det at fremhæve årsagerne til sådan træthed en konsekvent brug af dette udtryk gennem hele indlægget.  

AI-træthed sætter ind på grund af de tilbageslag og udfordringer, organisationer, udviklere eller teams står over for, hvilket ofte fører til mislykket værdirealisering eller implementering af AI-systemer.

Det starter for det meste med urealistiske forventninger til, hvad AI er i stand til. For sofistikerede teknologier som AI skal nøgleinteressenter tilpasse sig ikke kun AI's muligheder og muligheder, men også dens begrænsninger og risici.

Når vi taler om risici, betragtes etik ofte som en eftertanke, der fører til skrotning af ikke-kompatible AI-initiativer.

Du må undre dig over, hvilken rolle datastyring spiller i at forårsage AI-træthed - præmissen for dette indlæg.

Det er der, vi er på vej videre. 

AI-træthed kan i store træk kategoriseres som før-udrulning og efter-udrulning. Lad os først fokusere på pre-deployment først.

Præ-implementering

Forskellige faktorer bidrager til at opgradere et Proof of Concept (PoC) til implementering, såsom:

  • Hvad prøver vi at løse?
  • Hvorfor er det et tvingende problem at prioritere nu?
  • Hvilke data er tilgængelige?
  • Er det ML-løseligt i første omgang?
  • Har data et mønster?
  • Kan fænomenet gentages?
  • Hvilke yderligere data ville løfte modellens ydeevne?

 

Kan Data Governance adressere AI-træthed?
Billede fra Freepik 
 

Når vi har vurderet, at problemet bedst kan løses ved hjælp af ML-algoritmer, udfører datavidenskabsteamet en eksplorativ dataanalyse. Mange underliggende datamønstre afsløres på dette stadium, hvilket fremhæver, om de givne data er rige på signalet. Det hjælper også med at skabe konstruerede funktioner til at fremskynde indlæringsprocessen for algoritmen.

Dernæst bygger teamet den første basismodel, og finder ofte ud af, at den ikke yder op til det acceptable niveau. En model, hvis output er lige så godt som en møntflip, tilføjer ingen værdi. Dette er et af de første tilbageslag, også kaldet lektioner, mens man bygger ML-modeller.

Organisationer kan flytte fra et forretningsproblem til et andet, hvilket forårsager træthed. Alligevel, hvis de underliggende data ikke bærer et rigt signal, kan ingen AI-algoritme bygge videre på det. Modellen skal lære de statistiske sammenhænge fra træningsdataene at generalisere på usete data.

Efter implementering

På trods af at den trænede model viser lovende resultater på valideringssættet, i overensstemmelse med de kvalificerende forretningskriterier, såsom 70 % præcision, kan der stadig opstå træthed, hvis modellen ikke klarer sig tilstrækkeligt i produktionsmiljøet.

Denne type AI-træthed kaldes post-deployment-fasen. 

Utallige årsager kan føre til forringet ydeevne, hvor dårlig datakvalitet er det mest almindelige problem, der plager modellen. Det begrænser modellens evne til præcist at forudsige målresponsen i fravær af afgørende egenskaber. 

Overvej, hvornår en af ​​de væsentlige funktioner, som kun manglede 10 % i træningsdata, nu bliver nul 50 % af tiden i produktionsdataene, hvilket fører til fejlagtige forudsigelser. Sådanne gentagelser og bestræbelser på at sikre konsekvente modeller skaber træthed hos dataforskerne og forretningsteamene og udhuler derved tilliden til datapipelines og risikerer de investeringer, der er foretaget i projektet.

Robuste datastyringsforanstaltninger er afgørende for at tackle begge typer AI-træthed. Da data er kernen i ML-modeller, er signalrige, fejlfrie og højkvalitetsdata et must for et ML-projekts succes. Håndtering af AI-træthed kræver et stærkt fokus på datastyring. Så vi skal arbejde stringent for at sikre den rette datakvalitet, lægge grunden til at bygge state-of-the-art modeller og levere troværdig forretningsindsigt.

Datakvalitet

Datakvalitet, nøglen til blomstrende datastyring, er en kritisk succesfaktor for maskinlæringsalgoritmer. Organisationer skal investere i datakvalitet, såsom udgivelse af rapporter til dataforbrugerne. I datavidenskabelige projekter skal du tænke på, hvad der sker, når data af dårlig kvalitet finder vej til modellerne, hvilket kan føre til dårlig ydeevne.

Kun under fejlanalysen ville holdene få identificeret datakvalitetsproblemerne, som, når de sendes til at blive rettet opstrøms, ender med at forårsage træthed blandt holdene.

Det er klart, at det ikke kun er den indsats, der er brugt, men der går meget tid, indtil de rigtige data begynder at strømme ind.

Derfor tilrådes det altid at rette dataproblemer ved kilden for at forhindre sådanne tidskrævende gentagelser. Til sidst hentyder de offentliggjorte datakvalitetsrapporter til datavidenskabsteamet (eller for den sags skyld andre downstream-brugere og dataforbrugere) med en forståelse af den acceptable kvalitet af de indkommende data.

Uden datakvalitet og styringsforanstaltninger ville dataforskere blive overbebyrdet med dataproblemer, hvilket bidrager til mislykkede modeller, der driver AI-træthed. 

Indlægget fremhævede de to stadier, hvor AI-træthed sætter ind, og præsenterede, hvordan datastyringsforanstaltninger såsom datakvalitetsrapporter kan være en facilitator for at opbygge troværdige og robuste modeller.

Ved at etablere et solidt fundament gennem datastyring kan organisationer opbygge en køreplan til succesfuld og problemfri AI-udvikling og -adoption, hvilket skaber entusiasme.

For at sikre, at indlægget giver et holistisk overblik over forskellige måder at håndtere AI-træthed på, understreger jeg også organisationskulturens rolle, som kombineret med andre bedste praksisser som datastyring vil gøre det muligt for og bemyndige datavidenskabsteams til at opbygge meningsfulde AI-bidrag hurtigere og hurtigere.
 
 

Vidhi Chugh er en AI-strateg og en digital transformationsleder, der arbejder i krydsfeltet mellem produkt, videnskab og teknik for at bygge skalerbare maskinlæringssystemer. Hun er en prisvindende innovationsleder, en forfatter og en international foredragsholder. Hun er på en mission om at demokratisere maskinlæring og bryde jargonen for, at alle kan være en del af denne transformation.

Tidsstempel:

Mere fra KDnuggets