Een wereld overwinnen die overspoeld wordt met vuile gegevens

Een wereld overwinnen die overspoeld wordt met vuile gegevens

Bronknooppunt: 2574986

Als een onzichtbaar virus teisteren ‘vuile gegevens’ de hedendaagse zakenwereld. Dat wil zeggen dat onnauwkeurige, onvolledige en inconsistente gegevens zich snel verspreiden in de huidige, op 'big data' gerichte wereld.

Het werken met vervuilde data kost bedrijven jaarlijks miljoenen dollars. Het vermindert de efficiëntie en effectiviteit van afdelingen binnen de onderneming en beperkt de inspanningen om te groeien en op te schalen. Het belemmert het concurrentievermogen, vergroot de veiligheidsrisico's en levert complianceproblemen op.

Degenen die de leiding hebben Data Management worstelt al jaren met deze uitdaging. Veel van de momenteel beschikbare tools kunnen datamanagementproblemen aanpakken voor geïsoleerde teams binnen afdelingen, maar niet voor het bedrijf als geheel of voor bredere data-ecosystemen. Erger nog, deze tools zorgen vaak voor nog meer gegevens die moeten worden beheerd – en ook die gegevens kunnen vervuild raken, wat nog meer kopzorgen en omzetverlies veroorzaakt.

Inzicht in vuile gegevens

Vuile gegevens verwijst naar alle gegevens die misleidend, duplicaat, onjuist of onnauwkeurig is, nog niet geïntegreerd is, in strijd is met de bedrijfsregels, geen uniforme opmaak heeft of fouten bevat in interpunctie of spelling.

Om te begrijpen hoe vuile data de afgelopen decennia alomtegenwoordig zijn geworden, moeten we ons het volgende scenario voorstellen: 

Kredietverstrekkers bij een grote bank raken perplex als ze ontdekken dat bijna alle klanten van de bank astronauten zijn. Gezien het feit dat NASA slechts een enkele tientallen astronauten, dit slaat nergens op. 

Bij verder onderzoek ontdekt de kredietafdeling dat bankfunctionarissen die nieuwe rekeningen openden, een 'astronaut' in het veld van de klantenberoepen hadden geplaatst. De kredietverstrekkers leren dat de functiebeschrijving niet relevant is voor hun tegenhangers die verantwoordelijk zijn voor nieuwe accounts. De bankfunctionarissen hadden 'astronaut', de eerste beschikbare optie, gekozen, simpelweg om sneller nieuwe rekeningen aan te maken.

De kredietverstrekkers moeten echter de juiste beroepen van hun klanten registreren om hun jaarlijkse bonussen te kunnen ontvangen. Om hieraan tegemoet te komen, ontwikkelt de kredietafdeling een eigen, aparte database. Ze nemen contact op met elke klant, leren het juiste beroep kennen en voegen dit toe aan hun database.

Nu beschikt de bank over twee databases met in wezen dezelfde informatie, afgezien van één veld. Als een derde afdeling toegang wil krijgen tot de informatie in die databases, bestaat er geen systeem om te bepalen welke database accuraat is. Die derde afdeling zou dus ook een eigen database kunnen creëren.

Soortgelijke scenario's spelen zich al tientallen jaren af ​​in organisaties in het hele land.

Ontluikende stortplaatsen voor digitale gegevens

De problemen begonnen in de jaren negentig met de digitale transformatie boom. Bedrijven zetten bedrijfssoftware in om hun bedrijfsprocessen te verbeteren. Software-as-a-service-producten van Salesforce maakten bijvoorbeeld betere manieren mogelijk om verkoop- en marketingsystemen te beheren.

Maar dertig jaar later heeft een dergelijke verouderde infrastructuur geresulteerd in een datamanagement-nachtmerrie. Verschillende datasilo's met stapels dubbele, onvolledige en onjuiste informatie doorkruisen het landschap van het bedrijfsleven en de publieke sector. Deze silo's omvatten bedrijfstakken, regio's en functies die respectievelijk eigenaar zijn van en toezicht houden op hun gegevensbronnen.

Daarnaast is de dataproductie de afgelopen decennia exponentieel toegenomen. Elk bedrijfsproces heeft nu zijn eigen software nodig, waardoor steeds meer gegevens worden geproduceerd. Applicaties registreren elke actie in hun eigen databases en er zijn obstakels opgedoken voor het ontginnen van de nieuw gecreëerde data-assets.

In voorgaande decennia was de woordenschat die data definieerde specifiek voor het bedrijfsproces dat deze data creëerde. Ingenieurs moesten deze lexicons vertalen naar discrete woordenboeken voor de systemen die de gegevens consumeerden. Kwaliteitsgaranties bestonden doorgaans niet. Net als in het bovenstaande astronautenvoorbeeld waren gegevens die bruikbaar waren voor één bedrijfsfunctie, onbruikbaar voor andere. En de toegankelijkheid tot gegevens uit de oorspronkelijke bedrijfsprocessen was op zijn best beperkt voor functies die anders wellicht geoptimaliseerd zouden zijn.

Het kopieerraadsel

Om dit probleem op te lossen, begonnen ingenieurs kopieën te maken van originele databases, omdat dit tot voor kort de beste beschikbare optie was. Vervolgens hebben ze deze kopieën getransformeerd om te voldoen aan de vereisten van de consumerende functie, waarbij ze gegevenskwaliteitsregels en herstellogica toepasten die exclusief waren voor de consumerende functie. Ze maakten veel kopieën en laadden deze in meerdere datawarehouses en analysesystemen.

De uitkomst? Een overvloed aan kopieën van datasets die voor sommige delen van de organisatie als ‘vies’ worden gelezen, waardoor verwarring ontstaat over welke kopie de juiste is. Bedrijven beschikken tegenwoordig over honderden kopieën van brongegevens in operationele datastores, databases, datawarehouses, datameren, analytische sandboxes en spreadsheets binnen datacenters en meerdere clouds. Toch hebben de Chief Information Officers en Chief Data Officers geen controle over het aantal gegenereerde kopieën, noch weten zij welke versie een echte bron van waarheid vertegenwoordigt.

Er zijn een groot aantal Data Governance-softwareproducten beschikbaar om enige orde in deze puinhoop te brengen. Deze omvatten datacatalogi, systemen voor het meten van datakwaliteit en het oplossen van problemen, managementsystemen voor referentiedata, managementsystemen voor masterdata, het ontdekken van datalijnen en managementsystemen.

Maar die remedies zijn duur en tijdrovend. Een typisch masterdatamanagementproject om klantgegevens uit meerdere gegevensbronnen uit verschillende productlijnen te integreren kan jaren duren en miljoenen dollars kosten. Tegelijkertijd neemt de hoeveelheid vervuilde data toe met snelheden die de inspanningen van de organisatie om controles en governance te installeren overtreffen.

Deze benaderingen zijn vol van tekortkomingen. Ze vertrouwen op handmatige processen, ontwikkelingslogica of bedrijfsregels om de taken van het inventariseren, meten en herstellen van de gegevens uit te voeren. 

Het herstellen van de controle

Drie opkomende technologieën zijn het meest geschikt om de huidige hachelijke situatie aan te pakken: door AI en machinaal leren aangedreven databeheer, semantische interoperabiliteitsplatforms zoals kennisgrafieken, en datadistributiesystemen zoals gedistribueerde grootboeken: 

1. AI- en machine learning-gestuurde oplossingen voor databeheer verminder de afhankelijkheid van mensen en code. AI en machinaal leren vervangen handmatig werk door acties zoals autotagging, organiseren en toezicht houden op enorme hoeveelheden gegevens. Transformatie en migratie van databeheer verlagen de IT-kosten. Organisaties kunnen ook robuustere en duurzamere architecturen bouwen die de gegevenskwaliteit op grote schaal bevorderen.

2. Kennisgrafieken maken native interoperabiliteit van ongelijksoortige gegevensmiddelen mogelijk, zodat informatie kan worden gecombineerd en begrepen in een gemeenschappelijk formaat. Door gebruik te maken van semantische ontologieën kunnen organisaties data toekomstbestendig maken met context en een gemeenschappelijk formaat voor hergebruik door meerdere belanghebbenden.

3. Gedistribueerde grootboeken, differentiële privacy en virtualisatie Elimineer de noodzaak om gegevens fysiek te kopiëren. Gedistribueerde grootboeken omvatten federatieve en beheerde databases die bruikbaar zijn voor alle bedrijfseenheden en organisaties. Differentiële privacy maakt het mogelijk om gegevens te maskeren om aan compliance-eisen te voldoen en deze tegelijkertijd met belanghebbenden te delen. Virtualisatie maakt het mogelijk om gegevens in een virtuele in plaats van een fysieke omgeving op te draaien.

Zodra CIO's en CDO's begrijpen dat de oorzaak van het probleem de verouderde infrastructuur is die datasilo's creëert, kunnen ze de onderliggende architecturen en data-infrastructuurstrategieën verbeteren.

Dirty data beperkt het vermogen van een organisatie om weloverwogen beslissingen te nemen en met precisie en flexibiliteit te opereren. Organisaties moeten de controle over hun data overnemen en de interoperabiliteit, kwaliteit en toegankelijkheid van data aanmoedigen. Als u dit wel doet, krijgt u concurrentievoordelen en worden beveiligings- en compliance-kwetsbaarheden weggenomen.

Tijdstempel:

Meer van DATAVERSITEIT