Uitlegbaarheid van gegevens: de tegenhanger van uitlegbaarheid van modellen - DATAVERSITEIT

Uitlegbaarheid van gegevens: de tegenhanger van uitlegbaarheid van modellen - DATAVERSITEIT

Bronknooppunt: 2658143

Tegenwoordig zijn AI en ML overal. 

Of iedereen er mee speelt ChatGPT (de snelste aangenomen app in de geschiedenis) of een recent voorstel om toe te voegen een vierde kleur voor verkeerslichten Om de overgang naar zelfrijdende auto’s veiliger te maken, heeft AI onze levens grondig doordrenkt. Hoewel AI toegankelijker lijkt dan ooit, is de complexiteit van AI-modellen exponentieel toegenomen. 

AI-modellen vallen in de hoofdcategorieën black box- en white box-modellen. Black box-modellen komen tot een besluit zonder uitleg, terwijl white box-modellen een resultaat opleveren op basis van de regels die tot dat resultaat hebben geleid. 

Terwijl we doorgaan met het evolueren naar een wereld van diepgaande leermethoden, neigen de meeste grotendeels naar black box-modellen. 

Het probleem met die aanpak? Black box-modellen (zoals de modellen die in computer vision zijn ingebouwd) kunnen niet rechtstreeks worden geconsumeerd. Dit wordt vaak het black box-probleem genoemd. Hoewel het opnieuw trainen van black box-modellen gebruikers een voorsprong kan geven, wordt het interpreteren van het model en het begrijpen van de resultaten van het black box-model moeilijker naarmate de modellen steeds complexer worden.

Eén tactiek om het black box-raadsel aan te pakken, is het maken van een zeer op maat gemaakt en verklaarbaar model. 

Maar dit is niet de richting waarin de wereld zich beweegt. 

Waar de uitlegbaarheid van modellen eindigt, begint de uitlegbaarheid van gegevens

Uitlegbaarheid is van cruciaal belang omdat het de transparantie, nauwkeurigheid en eerlijkheid van het model verbetert en ook het vertrouwen in de AI kan vergroten. Hoewel modelverklaarbaarheid een conventionele benadering is, ontstaat er nu ook behoefte aan een nieuw type: gegevensverklaarbaarheid.

Modelverklaarbaarheid betekent het begrijpen van het algoritme, om zo het eindresultaat te begrijpen. Als een model dat op een oncologie-afdeling wordt gebruikt bijvoorbeeld is ontworpen om te testen of een gezwel kanker is, moet een zorgverlener de variabelen begrijpen die tot de eindresultaten leiden. Hoewel dit in theorie geweldig klinkt, lost de verklaarbaarheid van modellen het black box-probleem niet helemaal op. 

Omdat modellen steeds complexer worden, zullen de meeste beoefenaars niet in staat zijn de transformaties in de binnenste lagen van het model nauwkeurig vast te stellen en de berekeningen te interpreteren. Ze vertrouwen grotendeels op wat ze kunnen controleren, dat wil zeggen de trainingsdatasets en wat ze waarnemen, de resultaten en voorspellingsmetingen.  

Laten we het voorbeeld gebruiken van een datawetenschapper die een model bouwt om foto's van koffiemokken uit duizenden foto's te detecteren – maar het model begint bijvoorbeeld ook afbeeldingen van drinkglazen en bierpullen te detecteren. Hoewel de glazen en bierpullen misschien enige gelijkenis vertonen met koffiemokken, zijn er duidelijke verschillen, zoals typische materialen, kleur, ondoorzichtigheid en structurele verhoudingen.

Om ervoor te zorgen dat het model koffiemokken met een hogere betrouwbaarheid kan detecteren, moet de datawetenschapper de antwoorden hebben op vragen als:

  • Welke afbeeldingen pakte het model op in plaats van koffiemokken? 
  • Is het model mislukt omdat ik het niet van voldoende of de juiste voorbeelden van koffiemokken heb voorzien?
  • Is dat model wel goed genoeg voor wat ik probeerde te bereiken?
  • Moet ik mijn kijk op het model ter discussie stellen?
  • Wat kan ik definitief vaststellen waardoor het model faalt? 
  • Moet ik nieuwe aannames van het model genereren?
  • Heb ik om te beginnen gewoon het verkeerde model voor de klus gekozen?

Zoals u kunt zien, is het uiterst onwaarschijnlijk dat u dit soort inzicht, begrip en modeluitlegbaarheid telkens wanneer er een probleem is, kunt bieden.

Verklaarbaarheid van gegevens is het begrijpen van de gegevens gebruikt voor training en input in een model, om te begrijpen hoe het eindresultaat van een model wordt bereikt. Naarmate ML-algoritmen steeds complexer worden, maar op grotere schaal worden gebruikt in beroepen en sectoren, zal de uitlegbaarheid van gegevens de sleutel vormen tot het snel ontsluiten en oplossen van veelvoorkomende problemen, zoals ons koffiemokvoorbeeld.

Eerlijkheid en transparantie in ML vergroten met uitlegbaarheid van gegevens

Eerlijkheid binnen ML-modellen is een hot topic, dat nog populairder kan worden gemaakt door data-uitlegbaarheid toe te passen.

Waarom het gezoem? Vooringenomenheid in AI kan voor een groep bevooroordeelde resultaten opleveren. Een van de best gedocumenteerde gevallen hiervan zijn vooroordelen in gevallen van racistisch gebruik. Laten we eens kijken naar een voorbeeld. 

Stel dat een groot, bekend consumentenplatform werft voor een nieuwe marketingdirecteurpositie. Om de grote hoeveelheid cv’s die dagelijks binnenkomen te verwerken, zet de HR-afdeling een AI/ML-model in om het sollicitatie- en wervingsproces te stroomlijnen door de belangrijkste kenmerken of gekwalificeerde sollicitanten te selecteren. 

Om deze taak uit te voeren, en elk cv te onderscheiden en te categoriseren, zal het model dit doen door betekenis te geven aan de belangrijkste dominante kenmerken. Helaas, dit ook betekent dat het model ook impliciet algemene raciale vooroordelen bij de kandidaten zou kunnen oppikken. Hoe zou dit precies gebeuren? Als een kandidatenpool een kleiner percentage van één ras omvat, zal de machine denken dat de organisatie de voorkeur geeft aan leden van een ander ras, of van de dominante dataset.

Als een model faalt, zelfs als dit onbedoeld is, moet het falen door het bedrijf worden aangepakt. In wezen moet degene die het model heeft ingezet, het gebruik van het model kunnen verdedigen.

In het geval van aanwerving en raciale vooroordelen zou de verdediger aan een boos publiek en/of applicatiepool het gebruik van datasets moeten kunnen uitleggen om het model te trainen, de aanvankelijke succesvolle resultaten van het model dat op die training is gebaseerd, het falen van het model om een ​​hoekgeval op te pikken, en hoe dit leidde tot een onbedoelde onevenwichtigheid van de gegevens die uiteindelijk een raciaal bevooroordeeld filterproces creëerde.

Voor de meesten zullen dit soort details over AI, onevenwichtige datasets, modeltraining en uiteindelijk falen via data-toezicht niet goed worden ontvangen of zelfs maar worden begrepen. Maar wat zal uit dit verhaal worden begrepen en bewaard? Bedrijf XYZ hanteert racistische vooroordelen bij het aannemen van personeel. 

De moraal van dit maar al te vaak voorkomende voorbeeld is dat onbedoelde fouten van een zeer slim model inderdaad voorkomen en een negatieve impact op mensen kunnen hebben en ernstige gevolgen kunnen hebben. 

Waar de uitlegbaarheid van gegevens ons brengt

In plaats van de resultaten te vertalen via een goed begrip van een complex machine learning-model, gebruikt de uitlegbaarheid van gegevens de gegevens om voorspellingen en mislukkingen te verklaren.

De verklaarbaarheid van data is dan een combinatie van het zien van de testdata en begrijpen wat een model uit die gegevens zal halen. Dit omvat het begrijpen van ondervertegenwoordigde datamonsters, oververtegenwoordigde monsters (zoals in het aanwervingsvoorbeeld) en de transparantie van de detectie van een model om voorspellingen en verkeerde voorspellingen nauwkeurig te begrijpen.

Dit begrip van de verklaarbaarheid van gegevens zal niet alleen de nauwkeurigheid en eerlijkheid van modellen verbeteren, maar zal er ook voor zorgen dat modellen sneller accelereren.

Terwijl we blijven vertrouwen op complexe AI- en ML-programma's en deze in ons dagelijks leven integreren, wordt het oplossen van het black box-probleem van cruciaal belang, vooral als het gaat om mislukkingen en verkeerde voorspellingen. 

Hoewel modeluitlegbaarheid altijd zijn plaats zal hebben, vereist het een andere laag. We hebben data-uitlegbaarheid nodig, omdat het begrijpen van wat een model ziet en leest nooit zal worden gedekt door de klassieke model-uitlegbaarheid.

Tijdstempel:

Meer van DATAVERSITEIT