Beoordeling van gegevenskwaliteit: succes meten - DATAVERSITY

Beoordeling van gegevenskwaliteit: succes meten – DATAVERSITY

Bronknooppunt: 2903188
beoordeling van de gegevenskwaliteitbeoordeling van de gegevenskwaliteit

Het doel van een Data Quality Assessment is niet alleen om onjuiste gegevens te identificeren, maar ook om de schade aan de bedrijfsprocessen in te schatten en corrigerende maatregelen te implementeren. Veel grote bedrijven hebben moeite met het op peil houden van de kwaliteit van hun data. 

Het is belangrijk om te onthouden dat gegevens niet altijd opgeslagen en statisch zijn, maar periodiek worden gebruikt. Nadat ze zijn gemaakt, worden gegevens gedownload, aangepast, opnieuw geformatteerd, uitgewisseld en zelfs vernietigd. 

Als deze verkeerd wordt uitgevoerd, bestaat bij elke actie het gevaar dat deze een negatieve impact heeft op de kwaliteit van de gegevens. Een slechte datakwaliteit kan op zijn beurt leiden tot knelpunten en heeft vaak een negatieve invloed op de beslissingen die een organisatie neemt. Zonder het juiste meetsysteem worden gegevens van lage kwaliteit wellicht nooit opgemerkt of gecorrigeerd.

Veel bedrijven weten niet dat ze problemen hebben met de gegevenskwaliteit. Het beoordelen van de kwaliteit van de gegevens is een klein maar zeer belangrijk onderdeel van het maximaliseren van de efficiëntie van een bedrijf. Problemen met de kwaliteit van de gegevens kunnen voor het eerst worden opgemerkt door de bedrijfsvoering van de organisatie of door de IT-afdeling. De eerste stappen bij het beoordelen van de kwaliteit van de gegevens kunnen worden beschouwd als een ‘bewustzijnsfase’. 

Een Data Quality Assessment ondersteunt de ontwikkeling van een gegevensstrategie, en een goed georganiseerde datastrategie zal de data op één lijn brengen en de doelstellingen, waarden en doelstellingen van het bedrijf ondersteunen.

Gegevensprofilering versus gegevenskwaliteitsbeoordelings

Dataprofilering wordt vaak beschouwd als een voorbereidende stap voor het uitvoeren van een datakwaliteitsbeoordeling, terwijl sommige mensen vinden dat deze twee tegelijkertijd moeten worden uitgevoerd. Gegevensprofilering houdt zich bezig met het begrijpen van de structuur van de gegevens, evenals de inhoud en onderlinge relaties ervan. Een Data Quality Assessment daarentegen evalueert en identificeert de dataproblemen van een organisatie, en de gevolgen van die problemen.

Nuttige gegevenskwaliteitsbeoordelingsstatistieken

Gegevenskwaliteitsbeoordelingsstatistieken meten onder andere hoe relevant, betrouwbaar, nauwkeurig en consistent de gegevens van een organisatie zijn. Afhankelijk van het type branche en de doelstellingen van een bedrijf kunnen specifieke meetgegevens nodig zijn om te bepalen of de gegevens van de organisatie aan de kwaliteitseisen voldoen. Het meten van de kwaliteit van de data, het begrijpen hoe datametrieken worden gebruikt en hoe de tools en best practices functioneren, is een noodzakelijke stap om een Gegevensgestuurde organisatie. 

Basisstatistieken voor gegevenskwaliteit zijn onder meer:

Relevantie: De gegevens kunnen van hoge kwaliteit zijn, maar nutteloos als het gaat om het helpen van de organisatie bij het bereiken van haar doelen. Een bedrijf dat zich bijvoorbeeld richt op de verkoop van op maat gemaakte laarzen, zou geïnteresseerd zijn in nuttige verzendgegevens, maar zou geen interesse hebben in een lijst met mensen die op zoek zijn naar producten voor het repareren van laarzen. Gegevens opslaan met de vage hoop dat ze later relevant zullen zijn, is een veelgemaakte fout. Metavlak biedt software voor het meten van de relevantie.  

Nauwkeurigheid: Vaak beschouwd als de belangrijkste meting voor gegevenskwaliteit, moet de nauwkeurigheid worden gemeten door middel van documentatie van de bron of een andere onafhankelijke bevestigingstechniek. De nauwkeurigheidsmetriek omvat ook statuswijzigingen van de gegevens zoals deze in realtime plaatsvinden.

Tijdigheid: Verouderde gegevens variëren van nutteloos tot potentieel schadelijk. Klantcontactgegevens die nooit worden bijgewerkt, zijn bijvoorbeeld schadelijk voor marketingcampagnes en advertenties. Er bestaat ook de mogelijkheid om producten naar het oude, niet langer correcte adres te verzenden. Voor goed zakendoen moeten alle gegevens worden bijgewerkt voor soepele, efficiënte bedrijfsprocessen.

Volledigheid: De volledigheid van gegevens wordt normaal gesproken bepaald door te beslissen of elk van de gegevensinvoer een “volledige” gegevensinvoer is. Onvolledige gegevens bieden vaak geen bruikbare zakelijke inzichten. In veel situaties is het proces van het beoordelen van de volledigheid een subjectieve meting die wordt uitgevoerd door een dataprofessional en niet door Data Quality-software.

Integriteit: Data-integriteit beschrijft de algehele nauwkeurigheid, consistentie en volledigheid van de gegevens gedurende de gehele levenscyclus. Gegevensintegriteit houdt ook verband met de veiligheid van de gegevens in termen van naleving van de regelgeving met betrekking tot persoonlijke privacy en beveiliging.

Consistentie: Verschillende versies van dezelfde gegevens kunnen het zakendoen verwarrend maken. Gegevens en informatie moeten consistent zijn in alle bedrijfssystemen om verwarring te voorkomen. Gelukkig is er software beschikbaar, zodat elke versie van de gegevens niet handmatig hoeft te worden vergeleken. (Stamgegevens en het beheer ervan is een optie voor het centraliseren van herhaaldelijk gebruikte gegevens en het vermijden van meerdere versies.)

Voorbereiding op de beoordeling 

Een beoordeling van de gegevenskwaliteit zal efficiënter verlopen en betere resultaten opleveren als er vóór de beoordeling een lijst met aandachtspunten en doelen wordt opgesteld. Houd bij het maken van deze lijst rekening met de langetermijndoelen van de organisatie, terwijl u de kortetermijndoelen vermeldt. Het langetermijndoel om het bedrijf efficiënter te maken kan bijvoorbeeld worden opgesplitst in kleinere doelen, zoals het repareren van het systeem zodat de juiste mensen de juiste rekeningen krijgen, en dat alle adressen van klanten correct zijn, enz. 

Deze lijst kan ook aan een raad van bestuur worden gepresenteerd als reden voor het initiëren en betalen van software voor de beoordeling van gegevenskwaliteit of het inhuren van een aannemer om de beoordeling uit te voeren. De basisstappen voor het maken van de lijst worden hieronder weergegeven.

  • Begin met het maken van een lijst met problemen met de gegevenskwaliteit die zich het afgelopen jaar hebben voorgedaan.
  • Besteed een week of twee aan het observeren van de gegevensstroom en bepaal wat er twijfelachtig uitziet, en waarom.
  • Deel uw observaties met andere managers en medewerkers, krijg feedback en pas de resultaten aan met behulp van de feedback.
  • Bekijk de lijst met problemen met de gegevenskwaliteit en bepaal welke de hoogste prioriteiten zijn, op basis van de impact die deze hebben op de omzet.
  • Herschrijf de lijst, zodat de prioriteiten als eerste worden vermeld. (Deze lijst kan beschikbaar worden gesteld aan de raad van bestuur en de contractant voor de beoordeling van de gegevenskwaliteit nadat de reikwijdte is vastgesteld.)
  • Bepaal de reikwijdte – welke gegevens worden tijdens de beoordeling bekeken?
  • Bepaal wie de gegevens gebruikt en onderzoek hun gegevensgebruiksgedrag voor en na de beoordeling om te bepalen of er wijzigingen moeten worden aangebracht.

Platformen voor de beoordeling van gegevenskwaliteit

Het handmatig uitvoeren van een Data Quality assessment vergt zoveel inspanning dat de meeste managers dit nooit zouden goedkeuren. Gelukkig zijn er Data Quality-platforms en -oplossingen beschikbaar. Sommige hanteren een holistische benadering, terwijl andere zich richten op bepaalde platforms of tools. Datakwaliteitsbeoordelingsplatforms kunnen organisaties helpen bij het omgaan met de groeiende data-uitdagingen waarmee ze worden geconfronteerd. 

Naarmate het gebruik van cloud- en edge computing-services toeneemt, kunnen organisaties datakwaliteitsbeoordelingsplatforms gebruiken om gegevens uit verschillende bronnen, zoals e-mail, sociale media en het internet der dingen, te analyseren, beheren en opschonen. Hieronder worden enkele beoordelingsplatformen (waaronder dashboards) besproken.

THet Erwin Data Intelligence Platform maakt gebruik van AI- en ML-compatibele ontdekkingstools om datapatronen te detecteren en zal bedrijfsregels creëren voor de datakwaliteitsbeoordeling. Het Erwin Data Intelligence Platform automatiseert de beoordeling van de gegevenskwaliteit, biedt voortdurende observatie van gegevens en bevat gedetailleerde dashboards.

Het Enterprise Data Observability Platform van Acceldata kan goed worden geïntegreerd met diverse technologieën en werkt goed met publieke, hybride en multi-cloudomgevingen. Het biedt een zeer effectief dashboard voor gegevenskwaliteit en maakt gebruik van machine learning-automatiseringsalgoritmen om de efficiëntie van uw gegevens te maximaliseren. Het Acceldata-platform zal problemen aan het begin van de datapijplijn detecteren en corrigeren, en deze isoleren voordat ze de downstream-analyses beïnvloeden.

Het IBM Infosphere Information Server for Data Quality Platform biedt een breed scala aan Data Quality-tools waarmee u de kwaliteit van de gegevens voortdurend kunt analyseren en bewaken. Het IBM-platform zal gegevens opschonen en standaardiseren terwijl de gegevenskwaliteit wordt geanalyseerd en bewaakt om onjuiste of inconsistente gegevens te verminderen.

Data Ladder's DataMatch Enterprise heeft een flexibele architectuur die een verscheidenheid aan tools biedt die gegevens kunnen opschonen en standaardiseren. Het kan in de meeste systemen worden geïntegreerd en is eenvoudig te gebruiken. DataMatch Enterprise is een selfservice Data Quality-tool die basisafwijkingen kan identificeren. Het meet de nauwkeurigheid, volledigheid, tijdigheid, enz. Het voert ook gedetailleerde gegevensopschoning, matching en samenvoeging uit.

Intellectyx treedt op als contractant voor een verscheidenheid aan datadiensten, waaronder het leveren van datakwaliteitsbeoordelingen en -oplossingen. Hun proces omvat:

  • Het identificeren van de zakelijke behoeften
  • Gegevenskwaliteitsmetrieken definiëren
  • Het beoordelen van de huidige gegevenskwaliteit
  • Het ontwikkelen van een verbeterplan

OpenRefine is geen platform voor de beoordeling van gegevenskwaliteit, maar het is een gratis, krachtige, open-sourcetool die is ontworpen om met rommelige gegevens te werken. Het gereedschap zal de gegevens opschonen en transformeren naar het juiste formaat. De gegevens worden op uw computersysteem opgeschoond, in plaats van in een gegevenswaswolk. 

Het beoordelingsrapport

Gegevenskwaliteitsbeoordelingsrapporten zijn normaal gesproken bedoeld om de resultaten van de beoordeling te beschrijven, evenals observaties en aanbevelingen. Het rapport omvat eventuele afwijkingen die een kritische impact hebben gehad op de organisatie, evenals oplossingen voor het identificeren en elimineren van deze afwijkingen. 

Het rapport moet het volgende bevatten:

  • Managementsamenvatting: Een inleiding gecombineerd met een korte beschrijving van het rapport
  • Belangrijkste bevindingen: Problemen met de gegevensstroom en hoe deze het bedrijf beïnvloeden
  • Het gebruikte proces: Beschrijf de software en het proces. (Als er een aannemer is ingeschakeld, is het rapport zijn verantwoordelijkheid)
  • Scores en algemene beoordelingen (per nummer)
  • Aanbevelingen (per nummer)
  • Openstaande problemen: eventuele onopgeloste problemen
  • Een conclusie: de verwachte resultaten voor het bedrijf als de wijzigingen worden doorgevoerd, en observaties of advies over de onopgeloste problemen

Afbeelding gebruikt onder licentie van Shutterstock.com

Tijdstempel:

Meer van DATAVERSITEIT