At overvinde en verden oversvømmet i beskidte data

At overvinde en verden oversvømmet i beskidte data

Kildeknude: 2574986

Som en usynlig virus plager "beskidte data" nutidens forretningsverden. Det vil sige, at unøjagtige, ufuldstændige og inkonsistente data spreder sig i nutidens "big data"-centrerede verden.

At arbejde med beskidte data koster virksomheder millioner af dollars årligt. Det reducerer effektiviteten og effektiviteten af ​​afdelinger, der spænder over virksomheden, og begrænser bestræbelserne på at vokse og skalere. Det hæmmer konkurrenceevnen, øger sikkerhedsrisici og giver overholdelsesproblemer.

De ansvarlige for Data Management har kæmpet med denne udfordring i årevis. Mange af de aktuelt tilgængelige værktøjer kan løse datahåndteringsproblemer for silede teams inden for afdelinger, men ikke for virksomheden som helhed eller for bredere dataøkosystemer. Værre er det, at disse værktøjer ofte ender med at skabe endnu flere data, der skal administreres – og at data også kan blive snavsede, hvilket forårsager mere hovedpine og indtægtstab.

Forståelse af beskidte data

Beskidte data henviser til enhver data der er vildledende, duplikeret, forkert eller unøjagtig, endnu ikke integreret, overtræder forretningsregler, mangler ensartet formatering eller indeholder fejl i tegnsætning eller stavefejl.

For at forstå, hvor beskidte data er blevet allestedsnærværende i de seneste årtier, forestil dig følgende scenarie: 

Långivere i en stor bank bliver forvirrede, da de opdager, at næsten alle bankens kunder er astronauter. I betragtning af at NASA kun har en et par dusin astronauter, det giver ingen mening. 

Efter yderligere udforskning opdager udlånsafdelingen, at bankbetjente, der åbnede nye konti, havde indsat "astronaut" i kundebesættelsesfeltet. Långiverne lærer, at jobbeskrivelsen er irrelevant for deres modparter, der er ansvarlige for nye konti. Bankbetjentene havde valgt "astronaut", den første tilgængelige mulighed, simpelthen for at komme hurtigere i gang med at oprette nye konti.

Långiverne skal dog have deres kunders korrekte erhverv registreret for at opnå deres årlige bonusser. For at afhjælpe situationen udvikler udlånsafdelingen sin egen, separate database. De kontakter hver enkelt kunde, lærer det korrekte erhverv og indsætter det i deres database.

Nu har banken to databaser med stort set samme information bortset fra ét felt. Hvis en tredje afdeling ønsker at få adgang til oplysningerne i disse databaser, eksisterer der ikke noget system til at afgøre, hvilken database der er nøjagtig. Så den tredje afdeling kan også oprette sin egen database.

Lignende scenarier har spillet i organisationer landsdækkende i årtier.

Voksende digitale lossepladser

Problemerne begyndte i 1990'erne med digital transformation boom. Virksomheder implementerede virksomhedssoftware for at forbedre deres forretningsprocesser. Software-as-a-service-produkter fra Salesforce muliggjorde for eksempel bedre måder at administrere salgs- og marketingsystemer på.

Men 30 år senere har en sådan gammel infrastruktur resulteret i et Data Management-mareridt. Forskellige datasiloer med masser af duplikerede, ufuldstændige og ukorrekte oplysninger peber på virksomheds- og den offentlige sektors landskaber. Disse siloer omfatter brancher, geografiske områder og funktioner, der henholdsvis ejer og overvåger deres datakilder.

Ud over det er datagenerering steget eksponentielt gennem årtierne. Hver forretningsproces kræver nu sin egen software, der producerer stadig flere data. Applikationer logger hver handling i deres oprindelige databaser, og forhindringer for at udvinde de nyoprettede dataaktiver er dukket op.

I tidligere årtier var ordforrådsdefinerende data specifik for den forretningsproces, der skabte dem. Ingeniører var nødt til at oversætte disse leksikon til diskrete ordbøger for de systemer, der forbruger dataene. Kvalitetsgarantier eksisterede typisk ikke. Som i astronauteksemplet ovenfor var data, der var brugbare af én virksomhedsfunktion, ubrugelige af andre. Og tilgængeligheden til data fra originale forretningsprocesser var i bedste fald begrænset for funktioner, der ellers kunne have opnået optimering.

Kopi-gåden

For at løse dette problem begyndte ingeniører at lave kopier af originale databaser, fordi det indtil for nylig var den bedste mulighed. De transformerede derefter disse kopier for at opfylde kravene til den forbrugende funktion, idet de anvendte regler for datakvalitet og afhjælpningslogik udelukkende til den forbrugende funktion. De lavede mange kopier og indlæste dem i flere datavarehuse og analysesystemer.

Resultatet? Et overløb af datasætkopier, der lyder som "beskidte" for nogle dele af organisationen, hvilket forårsager forvirring om, hvilken kopi der er den rigtige. Virksomheder har i dag hundredvis af kopier af kildedata på tværs af operationelle datalagre, databaser, datavarehuse, datasøer, analytiske sandkasser og regneark i datacentre og flere skyer. Alligevel har informationschefer og dataansvarlige hverken kontrol over antallet af genererede kopier eller viden om, hvilken version der repræsenterer en ægte kilde til sandhed.

Et væld af Data Governance-softwareprodukter er tilgængelige for at bringe orden i dette rod. Disse omfatter datakataloger, datakvalitetsmåling og problemløsningssystemer, referencedatastyringssystemer, masterdatastyringssystemer, dataafstamningsopdagelse og ledelsessystemer.

Men disse midler er dyre og tidskrævende. Et typisk masterdatastyringsprojekt for at integrere kundedata fra flere datakilder fra forskellige produktlinjer kan tage år og koste millioner af dollars. Samtidig stiger mængden af ​​snavsede data med hastigheder, der overstiger organisatoriske bestræbelser på at installere kontroller og styring.

Disse tilgange er fyldt med mangler. De er afhængige af manuelle processer, udviklingslogik eller forretningsregler til at udføre opgaverne med opgørelse, måling og udbedring af dataene. 

Genoprette kontrol

Tre nye teknologier er bedst egnede til at tackle den nuværende knibe: AI- og maskinlæringsdrevet datastyring, semantiske interoperabilitetsplatforme såsom vidensgrafer og datadistributionssystemer såsom distribuerede hovedbøger: 

1. AI- og maskinlæringsdrevne Data Governance-løsninger reducere afhængigheden af ​​mennesker og kode. AI og maskinlæring erstatter manuelt arbejde med handlinger, der inkluderer automatisk tagging, organisering og overvågning af massive datamængder. Data Management transformation og migration reducerer IT-omkostninger. Organisationer kan også bygge mere robuste og bæredygtige arkitekturer, der fremmer datakvalitet i stor skala.

2. Vidensgrafer tillade indbygget interoperabilitet af forskellige dataaktiver, så information kan kombineres og forstås i et fælles format. Ved at udnytte semantiske ontologier kan organisationer fremtidssikre data med kontekst og et fælles format til genbrug af flere interessenter.

3. Fordelte regnskaber, differentieret privatliv og virtualisering eliminere behovet for fysisk at kopiere data. Distribuerede hovedbøger omfatter fødererede og styrede databaser, der kan bruges på tværs af forretningsenheder og organisationer. Differentieret privatliv gør det muligt at maskere data for at overholde compliance-kravene og samtidig dele dem med interessenter. Virtualisering tillader spin op af data i et virtuelt snarere end fysisk miljø.

Når først CIO'er og CDO'er forstår, at problemets rod er ældre infrastruktur, der skaber datasiloer, kan de forbedre underliggende arkitekturer og datainfrastrukturstrategier.

Beskidte data begrænser en organisations evne til at træffe informerede beslutninger og operere med præcision og smidighed. Organisationer skal tage kontrol over deres data og fremme datainteroperabilitet, kvalitet og tilgængelighed. At gøre det vil give konkurrencefordele og slette sikkerheds- og compliance-sårbarheder.

Tidsstempel:

Mere fra DATAVERSITET