Premagovanje svetovne preplavljenosti z umazanimi podatki

Premagovanje svetovne preplavljenosti z umazanimi podatki

Izvorno vozlišče: 2574986

Kot nevidni virus »umazani podatki« pestijo današnji poslovni svet. To pomeni, da se netočni, nepopolni in nedosledni podatki množijo v današnjem svetu, osredotočenem na »velike podatke«.

Delo z umazanimi podatki stane podjetja na milijone dolarjev letno. Zmanjšuje učinkovitost in uspešnost oddelkov, ki zajemajo podjetje, in omejuje prizadevanja za rast in obseg. Zavira konkurenčnost, povečuje varnostna tveganja in povzroča težave pri skladnosti.

Tisti, ki so zadolženi za Data management že leta spopadajo s tem izzivom. Številna trenutno razpoložljiva orodja lahko obravnavajo vprašanja upravljanja podatkov za izolirane ekipe znotraj oddelkov, ne pa tudi za podjetje na splošno ali za širše podatkovne ekosisteme. Še huje, ta orodja pogosto na koncu ustvarijo še več podatkov, ki jih je treba upravljati – in tudi ti podatki lahko postanejo umazani, kar povzroči več glavobolov in izgubo prihodka.

Razumevanje umazanih podatkov

Umazani podatki se nanaša na kakršne koli podatke ki je zavajajoče, podvojeno, napačno ali netočno, še ni integrirano, krši poslovna pravila, nima enotnega oblikovanja ali vsebuje napake v ločilih ali črkovanju.

Da bi razumeli, kako umazani podatki so postali vseprisotni v zadnjih desetletjih, si predstavljajte naslednji scenarij: 

Posojilodajalci v veliki banki postanejo zmedeni, ko odkrijejo, da so skoraj vse stranke banke astronavti. Glede na to, da ima NASA samo a nekaj deset astronavtov, to nima smisla. 

Po nadaljnjem raziskovanju oddelek za posojanje odkrije, da so bančni uradniki, ki so odpirali nove račune, v polje poklica strank vstavljali »astronavta«. Posojilodajalci izvedo, da je opis delovnega mesta nepomemben za njihove sodelavce, odgovorne za nove račune. Bančni uslužbenci so izbrali »astronavta«, prvo razpoložljivo možnost, preprosto zato, da bi hitreje odpirali nove račune.

Posojilodajalci pa morajo imeti evidentirane pravilne poklice svojih strank, da lahko pridobijo svoje letne bonuse. Da bi popravil situacijo, posojilni oddelek razvije lastno, ločeno bazo podatkov. Z vsako stranko stopijo v stik, se seznanijo s pravim poklicem in ga vnesejo v svojo bazo podatkov.

Zdaj ima banka dve podatkovni zbirki z v bistvu enakimi informacijami, razen enega polja. Če tretji oddelek želi dostopati do informacij v teh zbirkah podatkov, ne obstaja sistem, ki bi določil, katera zbirka podatkov je točna. Torej bi ta tretji oddelek lahko ustvaril tudi svojo bazo podatkov.

Podobni scenariji se že desetletja odvijajo v organizacijah po vsej državi.

Rastoča odlagališča digitalnih podatkov

Težave so se začele v devetdesetih letih prejšnjega stoletja z digitalna transformacija razcvet. Podjetja so uvedla poslovno programsko opremo za izboljšanje svojih poslovnih procesov. Izdelki programske opreme kot storitve podjetja Salesforce so na primer omogočili boljše načine za upravljanje sistemov prodaje in trženja.

Toda 30 let kasneje je takšna podedovana infrastruktura povzročila nočno moro za upravljanje podatkov. Različni podatkovni silosi s kopicami podvojenih, nepopolnih in nepravilnih informacij poprajo pokrajino podjetij in javnega sektorja. Ti silosi obsegajo poslovne linije, geografska območja in funkcije, ki imajo v lasti in nadzorujejo svoje vire podatkov.

Poleg tega se je proizvodnja podatkov v desetletjih eksponentno povečala. Vsak poslovni proces zdaj zahteva lastno programsko opremo, ki proizvaja vedno več podatkov. Aplikacije beležijo vsako dejanje v svojih izvornih zbirkah podatkov in pojavile so se ovire za rudarjenje na novo ustvarjenih podatkovnih sredstev.

V prejšnjih desetletjih so bili podatki, ki so definirali besedišče, specifični za poslovni proces, ki jih je ustvaril. Inženirji so morali te leksikone prevesti v ločene slovarje za sisteme, ki uporabljajo podatke. Garancije za kakovost običajno niso obstajale. Kot v zgornjem primeru z astronavti so bili podatki, ki jih je lahko uporabljala ena poslovna funkcija, neuporabni za druge. In dostop do podatkov iz izvirnih poslovnih procesov je bil v najboljšem primeru omejen za funkcije, ki bi sicer lahko dosegle optimizacijo.

Uganka o kopiranju

Da bi rešili to težavo, so inženirji začeli izdelovati kopije izvirnih baz podatkov, ker je bila do nedavnega to najboljša razpoložljiva možnost. Te kopije so nato preoblikovali, da so izpolnili zahteve potrošniške funkcije, pri čemer so uporabili pravila o kakovosti podatkov in logiko popravkov, ki so izključno za potrošniško funkcijo. Naredili so veliko kopij in jih naložili v več podatkovnih skladišč in analitičnih sistemov.

Rezultat? Preveliko število kopij nabora podatkov, ki se nekaterim delom organizacije berejo kot »umazane«, kar povzroča zmedo o tem, katera kopija je prava. Podjetja imajo danes na stotine kopij izvornih podatkov v shrambah operativnih podatkov, bazah podatkov, podatkovnih skladiščih, podatkovnih jezerih, analitičnih peskovnikih in preglednicah v podatkovnih centrih in več oblakih. Vendar glavni uradniki za informacije in glavni uradniki za podatke nimajo nadzora nad številom ustvarjenih kopij niti ne vedo, katera različica predstavlja pristen vir resnice.

Na voljo je množica programskih izdelkov za upravljanje podatkov, ki v to zmešnjavo vnesejo nekaj reda. Ti vključujejo kataloge podatkov, sisteme za merjenje kakovosti podatkov in reševanje težav, sisteme za upravljanje referenčnih podatkov, sisteme za upravljanje z glavnimi podatki, odkrivanje podatkovnih linij in sisteme za upravljanje.

Toda ta zdravila so draga in dolgotrajna. Tipičen glavni projekt upravljanja podatkov za integracijo podatkov o strankah iz več podatkovnih virov iz različnih linij izdelkov lahko traja leta in stane milijone dolarjev. Hkrati se obseg umazanih podatkov povečuje s hitrostjo, ki prehiteva organizacijska prizadevanja za namestitev nadzora in upravljanja.

Ti pristopi so polni napak. Zanašajo se na ročne procese, razvojno logiko ali poslovna pravila za izvajanje nalog inventarizacije, merjenja in sanacije podatkov. 

Obnovitev nadzora

Tri nastajajoče tehnologije so najprimernejše za reševanje trenutnih težav: upravljanje podatkov, ki temelji na umetni inteligenci in strojnem učenju, platforme semantične interoperabilnosti, kot so grafi znanja, in sistemi za distribucijo podatkov, kot so porazdeljene knjige: 

1. Rešitve za upravljanje podatkov, ki temeljijo na AI in strojnem učenju zmanjšati odvisnost od ljudi in kode. Umetna inteligenca in strojno učenje nadomeščata ročno delo z dejanji, ki vključujejo samodejno označevanje, organiziranje in nadzor ogromnih količin podatkov. Transformacija in migracija upravljanja podatkov zmanjšata stroške IT. Organizacije lahko zgradijo tudi bolj robustne in trajnostne arhitekture, ki spodbujajo kakovost podatkov v velikem obsegu.

2. Grafi znanja omogočajo izvorno interoperabilnost različnih podatkovnih sredstev, tako da je mogoče informacije združiti in razumeti v skupnem formatu. Z izkoriščanjem semantičnih ontologij lahko organizacije pridobijo podatke, ki so primerni za prihodnost, s kontekstom in skupnim formatom za ponovno uporabo s strani več zainteresiranih strani.

3. Porazdeljene knjige, diferencialna zasebnost in virtualizacija odpraviti potrebo po fizičnem kopiranju podatkov. Porazdeljene knjige obsegajo združene in upravljane baze podatkov, ki se lahko uporabljajo v poslovnih enotah in organizacijah. Diferencialna zasebnost omogoča prikrivanje podatkov, da se upoštevajo zahteve glede skladnosti, hkrati pa jih delite z zainteresiranimi stranmi. Virtualizacija omogoča vrtenje podatkov v virtualnem in ne fizičnem okolju.

Ko CIO in CDO razumejo, da je vzrok težave podedovana infrastruktura, ki ustvarja podatkovne silose, lahko izboljšajo temeljne arhitekture in strategije podatkovne infrastrukture.

Umazani podatki omejujejo sposobnost organizacije, da sprejema odločitve na podlagi informacij ter deluje natančno in okretno. Organizacije morajo prevzeti nadzor nad svojimi podatki in spodbujati interoperabilnost, kakovost in dostopnost podatkov. S tem boste zagotovili konkurenčne prednosti ter izbrisali varnostne in skladne ranljivosti.

Časovni žig:

Več od PODATKOVNOST