Forstå virkningen af dårlige data - DATAVERSITET

Genudgivet af Platon

Abonnenter: 0

Kender du omkostningerne ved dårlig datakvalitet? Nedenfor undersøger jeg betydningen af dataobservabilitet, hvordan det kan mindske risikoen for dårlige data og måder at måle dets ROI på. Ved at forstå virkningen af dårlige data og implementere effektive strategier kan organisationer maksimere fordelene ved deres datakvalitetsinitiativer.

Data er blevet en integreret del af moderne beslutningstagning, og derfor er datakvalitet altafgørende for at sikre, at forretningsinteressenter drager nøjagtige konklusioner.

Men her er fangsten, som enhver moderne dataleder vil fortælle dig: Datakvalitetsstyring er svær. Det kræver tid og kræfter. Ydermere er ROI (return on investment) ofte svært at måle.

Hvor dårlige er dårlige data?

Dårlige data kan føre til betydelige økonomiske tab. Gartner vurderer, at dårlig datakvalitet hvert år koster organisationer i gennemsnit $ 12.9 millioner. I 2022, Enhedssoftware rapporterede et tab på $110 millioner i omsætning og $4.2 milliarder i markedsværdi. "Konsekvenser af at indtage dårlige data fra en stor kunde," udtalte virksomheden. På samme måde forårsagede dårlige data Equifax, et børsnoteret kreditoplysningsbureau, at sende långivere unøjagtige kreditvurderinger på millioner af kunder. For nylig forårsagede en datahændelse enorme forstyrrelser i flytrafikken i Storbritannien og Irland. Det er rapporteret, at over 2,000 flyvninger blev aflyst, hvilket efterlod hundredtusindvis af rejsende strandet, det akkumulerede økonomiske tab for flyselskaberne anslås til $126.5 millioner.

Konsekvenserne af dårlige data

Data er kernen i enhver moderne virksomhed. Datateamets hovedansvar er at bygge og vedligeholde dataprodukter, der serveres til kunder internt og eksternt, samtidig med at organisationen kan skalere og opfylde sine mål.

Når det kommer til at sikre, at organisationens datainitiativer er klar til succes, kan nogle grundlæggende forventninger fra et datateam opsummeres som følger:

Oppetid: Data er en service, og derfor er det vigtigt at sikre, at de er tilgængelige, når det er nødvendigt.
Sikkerhed: Overholdelse af regler (såsom GDPR eller HIPAA). Teamet er ansvarligt for implementeringen af foranstaltninger og praksis for at beskytte følsomme oplysninger og opretholde databeskyttelse.
Pålidelighed: Af både data og dataplatform. En del af dette er dækket af oppetid, men også datakvalitet og nøjagtighed i traditionel forstand.
Skala: Dataplatformen bør give mulighed for skalerbarhed for at imødekomme voksende datamængder, antallet af use cases og virksomhedens behov.
Innovation: Data skal drive innovation, og det er et område, hvor det er vigtigt, at datateamet går foran med et godt eksempel ved at bringe innovation til og uden for datapraksis.

Opnåelse af datakvalitet gennem dataobservation

Dataobservabilitet er en løsning til proaktivt at overvåge og vedligeholde datas sundhed gennem hele deres livscyklus. Ved at implementere lognings-, sporings- og overvågningsteknikker får organisationer synlighed i datastrømme, identificerer og fejlfinder hurtigt datakvalitetsproblemer og forhindrer forstyrrelser i analyse-dashboards. Datafærdighed, der involverer sourcing, fortolkning og kommunikation af data, er afgørende for, at beslutningstagere effektivt kan omsætte data til forretningsværdi. At dyrke en datadrevet kultur og investere i de rigtige værktøjer er afgørende skridt i retning af at opnå datakvalitet gennem dataobservation.

Kvantificering af ROI af dataobservabilitet

Måling af ROI af dataobservabilitet hjælper virksomhedsledere med at forstå værdien og fordelene forbundet med at investere i denne praksis. Adskillige kvantificerbare metrics kan tjene som udgangspunkt for at evaluere omkostningerne ved dårlige data, herunder antallet af hændelser eller antallet af hændelser om året, tid til detektion og tid til løsning.

Virkningen af problemer med datakvalitet kan variere afhængigt af størrelsen og kompleksiteten af forretningsdriften. For at vurdere skaden og opbygge en stærk case for en dataobservationsløsning, foreslår vi fem nøglemålinger, som datapraktikere nemt kan implementere og overvåge, og som kan bruges til at understøtte en sag internt:

Antal og hyppighed af hændelser: Mens nogle virksomheder kan opleve datahændelser på daglig basis, kan andre gå dage – hvis ikke uger – uden en. Kritiskheden af hændelserne kan variere fra noget "mindre", såsom uaktuelle data knyttet til et dashboard, som ingen har brugt i evigheder, til et dataduplikeringsproblem, der får serveren til at overbelaste og i sidste ende gå ned (sand historie, Netflix 2016). Vi oplever, at det ofte hænger sammen med: størrelsen og kompleksiteten af dataplatformen, virksomhedens branche (nogle brancher er i sagens natur mere datamodne end andre), dataarkitekturtype (centraliseret, decentral, hybrid) osv. Dokumentation af hændelserne vil give en bedre idé om, hvad du skal kigge efter næste gang, der er en, gentagne hændelser er ofte en god indikator på, at noget nedenunder har brug for nærmere opmærksomhed.
Hændelsesklassificering: Ikke alle datahændelser er af samme sværhedsgrad; nogle kan være mindre og let afbødes, mens andre kan have alvorlige konsekvenser. Dokumentation af kritikaliteten af hændelserne er vigtig for at sikre korrekt optrapning og prioritering. Det er her, dataafstamning kan være medvirkende, da det gør det muligt at vurdere nedstrømspåvirkningen af hændelsen for bedre at forstå kritikaliteten. En hændelse, der er knyttet til den administrerende direktørs foretrukne dashboard, eller en produktionsdatabase eller et vigtigt dataprodukt, er sandsynligvis af høj kritikalitet.
Gennemsnitlig tid til detektion (MTTD): Når det kommer til at opbygge tillid til dataene og datateamet, er enhver datapraktikers mareridt, når forretningsinteressenter er de første til at opdage problemer med datakvalitet. Det kan virkelig skade teamets troværdighed og virksomhedens evne til virkelig at blive datadrevet. Når du begynder at dokumentere hændelserne og klassificere deres kritikalitet, er det vigtigt også at holde styr på, hvordan de blev opdaget, og den tid det tog for datateamet at anerkende dem. Denne metrik kan være en god indikator for robustheden af din hændelseshåndtering, men ved også at reducere den betyder, at du reducerer risikoen for, at hændelsen kan forårsage mere skade.
Gennemsnitlig tid til opløsning (MTTR): Hvad sker der, når en hændelse er rapporteret? MTTR er den gennemsnitlige tid, der går mellem at blive opmærksom på en datahændelse og at løse den. Opløsningstiden er i høj grad påvirket af hændelsens kritikalitet og kompleksiteten af dataplatformen, hvorfor vi overvejer gennemsnittet i forbindelse med denne ramme.
Middeltid til produktion (MTTP) er den gennemsnitlige tid det tager at sende nye dataprodukter eller med andre ord den gennemsnitlige tid til markedet for dataprodukter. Dette kan være den tid, en analytiker bruger på at "rense" dataene til en datavidenskabsmodel. Faktisk ifølge Forbes, dataforberedelse står for omkring 80 % af dataforskernes arbejde. I en verden, hvor vi ønsker at behandle data som et produkt, kan en forbedring af datakvaliteten have en direkte indflydelse på at reducere tiden til markedet.

Ud over ovenstående kvantificerbare metrics er andre, der er mindre let kvantificerbare, men lige så vigtige, værd at overveje, når man ser på omkostningerne ved dårlige data.

Erosion af tillid: I dataene , datateamet. Dette er efter min mening den farligste konsekvens af dårlige data, som kan resultere i større problemer som omsætning i datateamet eller tab af tillid til virksomhedens evne til at blive datadrevet og følge med i det digitale landskab i udvikling. Og når først tilliden er brudt, er det meget svært at genvinde den. I en tidligere oplevelse arbejdede jeg omkring dataforbrugere, der hellere ikke ville bruge data og hellere ville stole på "erfaring" og "mavefornemmelse" i et meget volatilt aktiehandelsmiljø end at bruge det velvidende, at det havde en stor chance for at være unøjagtigt. .

Tab i produktivitet: Med dårlige data er teams tvunget til at brandbekæmpe og rette fejl, efterhånden som de opstår. Denne konstante brandslukning er ikke kun udmattende, men også kontraproduktiv. Værdifuld tid, der kunne bruges på strategisk planlægning og vækstinitiativer, spildes på fejlfinding, og aflede ressourcer fra mere kritiske opgaver.

Regulerings- og omdømmerisiko: Fejl i økonomisk rapportering eller forkert håndtering af persondata kan resultere i dyre bøder og juridiske kampe. Håndtering af overholdelsesspørgsmål er et betydeligt træk på produktiviteten, for ikke at nævne den økonomiske byrde, de pålægger.

Dårlige forretningsresultater: Ud over at miste produktiviteten i datateamet kan dårlige data hindre den overordnede forretningspræstation, da virksomheden kæmper med digital parathed og troværdighed over for sine kunder og bliver sårbar over for eksterne trusler.

Problemer med datakvalitet kan resultere i forskellige problemer, herunder tab af tillid til data, nedsat teamproduktivitet og moral, manglende overholdelse af regler og forringet kvalitet af beslutningstagning. Siled data inden for afdelinger eller forretningsenheder gør det udfordrende at få et holistisk syn på organisationens datalandskab. Dette kan føre til ineffektiv beslutningstagning, hindre datakultur og bringe overholdelse af regler som GDPR og HIPAA i fare. Desuden kan datateams blive frustrerede ved at bruge for lang tid på at fejlfinde dataproblemer, hvilket påvirker deres arbejdsglæde negativt og potentielt kan føre til medarbejderfragang.

1x10x100-reglen

1x10x100-reglen, et almindeligt anerkendt princip i hændelseshåndtering, understreger de eskalerende omkostninger forbundet med dårlig datakvalitet. I henhold til denne regel er omkostningerne ved at løse et datakvalitetsproblem ved indgangspunktet cirka 1x den oprindelige pris. Hvis problemet bliver uopdaget og forplanter sig i systemet, stiger omkostningerne til omkring 10x, hvilket involverer korrigering og afhjælpning. Men hvis den dårlige datakvalitet når slutbrugeren eller beslutningsfasen, kan omkostningerne skyde i vejret til svimlende 100 gange den oprindelige udgift på grund af betydelige forretningsmæssige konsekvenser, herunder driftsforstyrrelser, mistede muligheder og kundetilfredshed. Denne regel understreger den eksponentielle indvirkning af dårlig datakvalitet, hvilket gør det afgørende for organisationer at investere i dataobservabilitet, hvilket hjælper med at holde problemer, hvis de opstår, tættere på årsagen i forhold til downstream.

Konklusion

Datakvalitetsproblemer påvirker virksomhederne betydeligt, hvilket fører til spildte ressourcer og forspildte muligheder. Investering i dataobservabilitet er afgørende for at forebygge og afbøde risici forbundet med dårlige data. Ved at udnytte kvantificerbare metrikker og overveje ikke-kvantificerbare faktorer, kan organisationer måle ROI af data observerbarhed og demonstrere dens værdi for beslutningstagere. Sikring af datatillid, fremme af effektiv domænebeslutningstagning, overholdelse af regler og fremme af et tilfreds datateam er alle kritiske aspekter for at maksimere fordelene ved datakvalitetsinitiativer. At omfavne data observerbarhed er en strategisk investering, der sikrer nøjagtigheden, pålideligheden og udnyttelsen af data i nutidens datadrevne verden.

Organisationer, der bygger en rig observerbarhedspraksis, har mere synlighed i deres sammenvævede miljøer, hvilket giver sig udslag i færre udfald, hurtigere problemløsning, større tillid til deres apps pålidelighed – og i sidste ende mere omsætning og gladere kunder.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://www.dataversity.net/putting-a-number-on-bad-data/

Tidsstempel: Januar 19, 2024

Genudgivet af Platon

8. februar ADV-webinar: Dataintegration — Nyhedsflash: Vi flytter stadig bare data! – DATAVERSITET

Hvordan AI Graph-databaser styrker virksomheden med bedre indsigt (Del 2) – DATAVERSITY

Data-Ed Webinar: Best Practices for datastyring

Neo4j forbedrer Cloud Database Performance for hurtigere analyse og beslutningstagning – DATAVERSITY

iPaaS er i stykker – Sådan løser du det

Webinar: En 5-trinsplan for et vellykket analysekatalog

My Career in Data Episode 40: Toby Hall & Curtis Mischler, Roosevelt Innovations – DATAVERSITY

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto