Ületamine räpase andmehulga maailmast

Ületamine räpase andmehulga maailmast

Allikasõlm: 2574986

Nagu nähtamatu viirus, kimbutavad „määrdunud andmed” tänapäeva ärimaailma. See tähendab, et ebatäpsed, mittetäielikud ja ebajärjekindlad andmed vohavad tänapäeva "suurandmete"-keskses maailmas.

Räpaste andmetega töötamine maksab ettevõtetele igal aastal miljoneid dollareid. See vähendab ettevõtet hõlmavate osakondade tõhusust ja tulemuslikkust ning piirab jõupingutusi kasvamiseks ja laienemiseks. See pärsib konkurentsivõimet, suurendab turvariske ja tekitab vastavusprobleeme.

Need, kes vastutavad Andmehaldus on selle väljakutsega maadelnud aastaid. Paljud praegu saadaolevad tööriistad suudavad lahendada andmehaldusprobleeme osakondades ühendatud meeskondade jaoks, kuid mitte ettevõtte laiemalt ega laiemate andmeökosüsteemide jaoks. Mis veelgi hullem, need tööriistad loovad sageli veelgi rohkem andmeid, mida tuleb hallata – ja ka need andmed võivad määrduda, põhjustades rohkem peavalu ja tulude kaotust.

Määrdunud andmete mõistmine

Määrdunud andmed viitab mis tahes andmetele mis on eksitav, dubleeriv, vale või ebatäpne, veel integreerimata, ärireegleid rikkuv, ühtse vorminguta või kirjavahemärkides või õigekirjavigu sisaldav.

Et mõista, kuidas määrdunud andmed on viimastel aastakümnetel üldlevinud, kujutage ette järgmist stsenaariumi: 

Suure panga laenuandjad satuvad hämmingusse, kui avastavad, et peaaegu kõik panga kliendid on astronaudid. Arvestades, et NASA-l on ainult a paarkümmend astronauti, sellel pole mõtet. 

Edasisel uurimisel avastab laenuosakond, et pangaametnikud, kes avasid uusi kontosid, olid sisestanud kliendi ametialale "astronaudi". Laenuandjad saavad teada, et ametijuhend ei ole nende uute kontode eest vastutavate kolleegide jaoks asjakohane. Pangaametnikud olid valinud "astronaudi", esimese saadaoleva võimaluse, et lihtsalt uute kontode loomisel kiiremini liikuda.

Laenuandjad peavad aga iga-aastaste boonuste saamiseks registreerima oma klientide õiged ametid. Olukorra parandamiseks töötab laenuosakond välja oma, eraldi andmebaasi. Nad võtavad iga kliendiga ühendust, saavad teada õige ameti ja lisavad selle oma andmebaasi.

Nüüd on pangal peale ühe välja kaks sisuliselt sama infoga andmebaasi. Kui kolmas osakond soovib juurdepääsu nendes andmebaasides olevale teabele, pole süsteemi, mis määraks, milline andmebaas on täpne. Seega võib see kolmas osakond luua ka oma andmebaasi.

Sarnased stsenaariumid on olnud organisatsioonides üleriigiliselt aastakümneid.

Kasvavad digitaalsed andmeprügilad

Probleemid said alguse 1990. aastatel digitaalse muundamise buum. Ettevõtted võtsid oma äriprotsesside täiustamiseks kasutusele ettevõttetarkvara. Näiteks Salesforce'i tarkvara-as-a-service tooted võimaldasid paremaid viise müügi- ja turundussüsteemide haldamiseks.

Kuid 30 aastat hiljem on selline pärandinfrastruktuur põhjustanud andmehalduse õudusunenägu. Erinevad andmehoidlad koos dubleeritud, mittetäieliku ja ebaõige teabega rikuvad ettevõtte ja avaliku sektori maastikke. Need silod hõlmavad ärivaldkondi, geograafilisi piirkondi ja funktsioone, mis omavad ja jälgivad vastavalt nende andmeallikaid.

Peale selle on andmete genereerimine aastakümnete jooksul plahvatuslikult kasvanud. Iga äriprotsess nõuab nüüd oma tarkvara, mis toodab üha rohkem andmeid. Rakendused logivad kõik toimingud oma algandmebaasides ja vastloodud andmevarade kaevandamisel on ilmnenud takistused.

Varasematel aastakümnetel oli andmeid defineeriv sõnavara spetsiifiline neid loonud äriprotsessile. Insenerid pidid tõlkima need leksikonid andmeid tarbivate süsteemide jaoks diskreetseteks sõnaraamatuteks. Kvaliteedigarantiid tavaliselt ei eksisteerinud. Nagu ülaltoodud astronaudi näites, ei olnud ühe ärifunktsiooni jaoks kasutatavad andmed teiste jaoks kasutatavad. Juurdepääs algsete äriprotsesside andmetele oli parimal juhul piiratud funktsioonide jaoks, mida muidu oleks võinud optimeerida.

Copy Conundrum

Selle probleemi lahendamiseks hakkasid insenerid tegema originaalandmebaasidest koopiaid, sest kuni viimase ajani oli see parim võimalik valik. Seejärel muutsid nad need koopiad tarbimisfunktsiooni nõuete täitmiseks, rakendades andmekvaliteedi reegleid ja parandusloogikat, mis olid ainult tarbimisfunktsioonile. Nad tegid palju koopiaid ja laadisid need mitmesse andmelattu ja analüüsisüsteemi.

Tulemus? Andmekogumi koopiate ülevool, mis loetakse mõnes organisatsiooni osas määrdunudks, põhjustades segadust, milline koopia on õige. Tänapäeval on ettevõtetel sadu koopiaid lähteandmetest operatiivsetes andmehoidlates, andmebaasides, andmeladudes, andmejärvedes, analüütika liivakastides ning andmekeskustes ja mitmes pilves asuvates arvutustabelites. Ometi ei ole juhtivatel teabeametnikel ega andmeametnikel kontrolli genereeritud koopiate arvu üle ega ka teadmist, milline versioon kujutab endast tõelist tõeallikat.

Saadaval on hulk andmehalduse tarkvaratooteid, mis aitavad sellesse segadusse korda teha. Nende hulka kuuluvad andmekataloogid, andmekvaliteedi mõõtmise ja probleemide lahendamise süsteemid, viiteandmete haldussüsteemid, põhiandmete haldussüsteemid, andmeliinide tuvastamine ja haldussüsteemid.

Kuid need abinõud on kallid ja aeganõudvad. Tüüpiline põhiandmete haldamise projekt erinevate tootesarjade mitmest andmeallikast pärit kliendiandmete integreerimiseks võib võtta aastaid ja maksta miljoneid dollareid. Samal ajal suureneb määrdunud andmete hulk kiirusega, mis ületab organisatsiooni jõupingutusi juhtelementide installimiseks ja juhtimiseks.

Need lähenemisviisid on täis puudusi. Nad toetuvad andmete inventeerimise, mõõtmise ja parandamise ülesannete täitmiseks käsitsi protsessidele, arendusloogikale või ärireeglitele. 

Kontrolli taastamine

Praeguse olukorra lahendamiseks sobivad kõige paremini kolm esilekerkivat tehnoloogiat: tehisintellektil ja masinõppel põhinev andmehaldus, semantilise koostalitlusvõime platvormid, nagu teadmiste graafikud, ja andmejaotussüsteemid, nagu hajutatud pearaamatud. 

1. AI- ja masinõppepõhised andmehalduslahendused vähendada sõltuvust inimestest ja koodist. AI ja masinõpe asendavad käsitsi töö toimingutega, mis hõlmavad tohutute andmekogude automaatset märgistamist, korraldamist ja järelevalvet. Andmehalduse ümberkujundamine ja migratsioon vähendab IT-kulusid. Organisatsioonid võivad luua ka tugevamaid ja jätkusuutlikumaid arhitektuure, mis soodustavad andmete kvaliteeti ulatuslikult.

2. Teadmiste graafikud võimaldama erinevate andmevarade natiivset koostalitlusvõimet, et teavet saaks kombineerida ja ühises vormingus mõista. Semantilisi ontoloogiaid võimendades saavad organisatsioonid tulevikukindlaid andmeid koos konteksti ja ühise vorminguga mitme sidusrühma poolt taaskasutamiseks.

3. Jaotatud pearaamatud, erinev privaatsus ja virtualiseerimine kaotab vajaduse andmeid füüsiliselt kopeerida. Jaotatud pearaamatud hõlmavad ühendatud ja juhitud andmebaase, mida saab kasutada äriüksuste ja organisatsioonide vahel. Diferentseeritud privaatsus võimaldab varjata andmeid, et need vastaksid vastavusnõuetele, jagades samal ajal neid sidusrühmadega. Virtualiseerimine võimaldab andmete keerutamist pigem virtuaalses kui füüsilises keskkonnas.

Kui CIO-d ja CDO-d mõistavad, et probleemi juur on pärandinfrastruktuur, mis loob andmehoidlaid, võivad nad parandada aluseks olevaid arhitektuure ja andmeinfrastruktuuri strateegiaid.

Mustandmed piiravad organisatsiooni võimet teha teadlikke otsuseid ning tegutseda täpselt ja paindlikult. Organisatsioonid peavad võtma kontrolli oma andmete üle ning soodustama andmete koostalitlusvõimet, kvaliteeti ja juurdepääsetavust. See annab konkurentsieelised ning kustutab turvalisuse ja vastavuse haavatavused.

Ajatempel:

Veel alates ANDMED