Overvinne en verden oversvømmet av skitne data

Overvinne en verden oversvømmet av skitne data

Kilde node: 2574986

Som et usynlig virus plager "skitne data" dagens forretningsverden. Det vil si at unøyaktige, ufullstendige og inkonsekvente data sprer seg i dagens «big data»-sentriske verden.

Å jobbe med skitne data koster bedrifter millioner av dollar årlig. Det reduserer effektiviteten og effektiviteten til avdelinger som spenner over virksomheten og begrenser innsatsen for å vokse og skalere. Det hemmer konkurranseevnen, øker sikkerhetsrisikoen og byr på overholdelsesproblemer.

De som har ansvaret for Dataledelse har slitt med denne utfordringen i årevis. Mange av de for øyeblikket tilgjengelige verktøyene kan håndtere datahåndteringsproblemer for siled team innen avdelinger, men ikke for selskapet som helhet eller for bredere dataøkosystemer. Verre er det at disse verktøyene ofte ender opp med å skape enda mer data som må administreres – og at data også kan bli skitne og forårsake mer hodepine og inntektstap.

Forstå skitne data

Skitne data refererer til alle data som er villedende, duplisert, feil eller unøyaktig, ennå ikke integrert, bryter med forretningsregler, mangler enhetlig formatering eller inneholder feil i tegnsetting eller stavemåte.

For å forstå hvor skitne data har blitt allestedsnærværende de siste tiårene, forestill deg følgende scenario: 

Långivere i en stor bank blir forvirret når de oppdager at nesten alle bankens kunder er astronauter. Tatt i betraktning at NASA bare har en noen dusin astronauter, dette gir ingen mening. 

Etter ytterligere leting oppdager utlånsavdelingen at bankbetjenter som åpnet nye kontoer hadde satt inn "astronaut" i kundeokkupasjonsfeltet. Långiverne får vite at stillingsbeskrivelsen er irrelevant for deres motparter som er ansvarlige for nye kontoer. Bankoffiserene hadde valgt "astronaut", det første tilgjengelige alternativet, ganske enkelt for å gå raskere med å opprette nye kontoer.

Långiverne må imidlertid ha kundenes korrekte yrker registrert for å få sine årlige bonuser. For å bøte på situasjonen utvikler utlånsavdelingen en egen, separat database. De kontakter hver kunde, lærer riktig yrke og legger det inn i databasen deres.

Nå har banken to databaser med i hovedsak samme informasjon, bortsett fra ett felt. Hvis en tredje avdeling ønsker å få tilgang til informasjonen i disse databasene, eksisterer det ikke noe system for å fastslå hvilken database som er nøyaktig. Så den tredje avdelingen kan også lage sin egen database.

Lignende scenarier har utspilt seg i organisasjoner over hele landet i flere tiår.

Voksende digitale datafyllinger

Problemet begynte på 1990-tallet med digital transformasjon bom. Bedrifter implementerte bedriftsprogramvare for å forbedre forretningsprosessene sine. Software-as-a-service-produkter fra Salesforce, for eksempel, muliggjorde bedre måter å administrere salgs- og markedsføringssystemer på.

Men 30 år senere har en slik eldre infrastruktur resultert i et dataadministrasjonsmareritt. Forskjellige datasiloer med mengder av duplikat, ufullstendig og uriktig informasjon gir bedrifter og offentlig sektor. Disse siloene omfatter bransjer, geografier og funksjoner som henholdsvis eier og overvåker datakildene deres.

Utover det har datagenerering økt eksponentielt i løpet av tiårene. Hver forretningsprosess krever nå sin egen programvare, som produserer stadig mer data. Applikasjoner logger hver handling i deres opprinnelige databaser, og hindringer for utvinning av de nyopprettede datamidlene har dukket opp.

I tidligere tiår var vokabular som definerer data spesifikke for forretningsprosessen som skapte dem. Ingeniører måtte oversette disse leksikonene til diskrete ordbøker for systemene som forbrukte dataene. Kvalitetsgarantier fantes vanligvis ikke. Som i astronauteksemplet ovenfor, var data som var brukbare av én forretningsfunksjon ubrukelig av andre. Og tilgjengeligheten til data fra originale forretningsprosesser var i beste fall begrenset for funksjoner som ellers kunne ha oppnådd optimalisering.

The Copy Conundrum

For å løse dette problemet begynte ingeniører å lage kopier av originale databaser fordi det inntil nylig var det beste alternativet tilgjengelig. De transformerte deretter disse kopiene for å tilfredsstille kravene til forbruksfunksjonen, og brukte datakvalitetsregler og utbedringslogikk eksklusivt for forbruksfunksjonen. De laget mange kopier og lastet dem inn i flere datavarehus og analysesystemer.

Resultatet? En overflod av datasettkopier som leses som "skitne" for enkelte deler av organisasjonen, noe som forårsaker forvirring om hvilken kopi som er den rette. Bedrifter har i dag hundrevis av kopier av kildedata på tvers av operative datalagre, databaser, datavarehus, datainnsjøer, analytiske sandkasser og regneark i datasentre og flere skyer. Likevel har informasjonssjefer og datasjefer verken kontroll over antall kopier som genereres eller kunnskap om hvilken versjon som representerer en ekte kilde til sannhet.

En rekke Data Governance-programvareprodukter er tilgjengelige for å bringe orden på dette rotet. Disse inkluderer datakataloger, datakvalitetsmåling og problemløsningssystemer, referansedatastyringssystemer, masterdatastyringssystemer, dataavstamningsoppdagelse og styringssystemer.

Men disse rettsmidlene er dyre og tidkrevende. Et typisk masterdataadministrasjonsprosjekt for å integrere kundedata fra flere datakilder fra forskjellige produktlinjer kan ta år og koste millioner av dollar. Samtidig øker volumet av skitne data med hastigheter som overgår organisasjonens innsats for å installere kontroller og styring.

Disse tilnærmingene er fulle av mangler. De er avhengige av manuelle prosesser, utviklingslogikk eller forretningsregler for å utføre oppgavene med inventering, måling og utbedring av dataene. 

Gjenoppretter kontroll

Tre nye teknologier er best egnet for å takle den nåværende situasjon: AI- og maskinlæringsdrevet datastyring, semantiske interoperabilitetsplattformer som kunnskapsgrafer og datadistribusjonssystemer som distribuerte hovedbøker: 

1. AI- og maskinlæringsdrevne Data Governance-løsninger redusere avhengigheten av mennesker og kode. AI og maskinlæring erstatter manuelt arbeid med handlinger som inkluderer automatisk merking, organisering og overvåking av enorme mengder data. Data Management transformasjon og migrering reduserer IT-kostnadene. Organisasjoner kan også bygge mer robuste og bærekraftige arkitekturer som oppmuntrer til datakvalitet i stor skala.

2. Kunnskapsgrafer tillate innebygd interoperabilitet av ulike dataressurser slik at informasjon kan kombineres og forstås under et felles format. Ved å utnytte semantiske ontologier kan organisasjoner fremtidssikre data med kontekst og et felles format for gjenbruk av flere interessenter.

3. Distribuerte hovedbøker, differensiert personvern og virtualisering eliminere behovet for fysisk kopiering av data. Distribuerte reskontro omfatter forente og styrte databaser som kan brukes på tvers av forretningsenheter og organisasjoner. Differensielt personvern gjør det mulig å maskere data for å overholde samsvarskravene, samtidig som de deler dem med interessenter. Virtualisering tillater spinning av data i et virtuelt snarere enn fysisk miljø.

Når CIOer og CDOer forstår at problemets rot er eldre infrastruktur som skaper datasiloer, kan de forbedre underliggende arkitekturer og datainfrastrukturstrategier.

Skitne data begrenser en organisasjons evne til å ta informerte beslutninger og operere med presisjon og smidighet. Organisasjoner må ta kontroll over dataene sine og oppmuntre datainteroperabilitet, kvalitet og tilgjengelighet. Å gjøre det vil gi konkurransefortrinn og slette sikkerhets- og overholdelsessårbarheter.

Tidstempel:

Mer fra DATAVERSITET