Depășirea unei lumi inundate de date murdare

Depășirea unei lumi inundate de date murdare

Nodul sursă: 2574986

Asemenea unui virus invizibil, „datele murdare” afectează lumea afacerilor de astăzi. Adică, datele inexacte, incomplete și inconsistente proliferează în lumea de astăzi centrată pe „datele mari”.

Lucrul cu date murdare costă companiile milioane de dolari anual. Scade eficiența și eficacitatea departamentelor care acoperă întreprinderea și limitează eforturile de creștere și scalare. Îngreunează competitivitatea, sporește riscurile de securitate și prezintă probleme de conformitate.

Cei responsabili de Management de date m-am confruntat cu această provocare de ani de zile. Multe dintre instrumentele disponibile în prezent pot aborda problemele de management al datelor pentru echipele izolate din cadrul departamentelor, dar nu pentru companie în general sau pentru ecosistemele de date mai largi. Mai rău, aceste instrumente ajung adesea să creeze și mai multe date care trebuie gestionate – și acele date, de asemenea, pot deveni murdare, provocând mai multe bătăi de cap și pierderi de venituri.

Înțelegerea datelor murdare

Date murdare se referă la orice date care este înșelător, duplicat, incorect sau inexact, încă neintegrat, încalcă regulile de afaceri, lipsește formatarea uniformă sau conține erori de punctuație sau ortografie.

Pentru a înțelege cum datele murdare au devenit omniprezente în ultimele decenii, imaginați-vă următorul scenariu: 

Creditorii unei bănci mari devin perplexi când descoperă că aproape toți clienții băncii sunt astronauți. Având în vedere că NASA are doar o câteva zeci de astronauți, asta nu are sens. 

După o explorare suplimentară, departamentul de creditare descoperă că ofițerii băncii care deschideau conturi noi au introdus „astronaut” în domeniul de ocupare a clienților. Creditorii învață că fișa postului este irelevantă pentru omologii lor responsabili pentru noile conturi. Ofițerii băncii selectaseră „astronaut”, prima opțiune disponibilă, pur și simplu pentru a trece mai rapid în crearea de noi conturi.

Cu toate acestea, creditorii trebuie să aibă în evidență ocupațiile corecte ale clienților lor pentru a obține bonusurile anuale. Pentru a remedia situația, departamentul de creditare își dezvoltă propria bază de date separată. Ei contactează fiecare client, învață ocupația corectă și o introduc în baza lor de date.

Acum, banca are două baze de date cu aceleași informații, în afară de un câmp. Dacă un al treilea departament dorește să acceseze informațiile din acele baze de date, nu există niciun sistem care să determine care bază de date este corectă. Deci, al treilea departament ar putea să-și creeze și propria bază de date.

Scenarii similare au avut loc în organizații la nivel național de zeci de ani.

Depozitele de date digitale în plină dezvoltare

Necazul a început în anii 1990 cu transformare digitală bum. Companiile au implementat software de întreprindere pentru a-și îmbunătăți procesele de afaceri. Produsele software-as-a-service de la Salesforce, de exemplu, au permis modalități mai bune de a gestiona sistemele de vânzări și marketing.

Dar 30 de ani mai târziu, o astfel de infrastructură moștenită a dus la un coșmar de management al datelor. Silozurile de date diferite cu o mulțime de informații duplicate, incomplete și incorecte împrăștie peisajul corporativ și al sectorului public. Aceste silozuri cuprind linii de afaceri, zone geografice și funcții care dețin și, respectiv, le supraveghează sursele de date.

Dincolo de asta, generarea de date a crescut exponențial de-a lungul deceniilor. Fiecare proces de afaceri necesită acum propriul software, producând tot mai multe date. Aplicațiile înregistrează fiecare acțiune în bazele lor de date native și au apărut obstacole în calea extragerii activelor de date nou create.

În deceniile precedente, datele de definire a vocabularului erau specifice procesului de afaceri care le-a creat. Inginerii au trebuit să traducă acele lexiconi în dicționare discrete pentru sistemele care consumau datele. Garanțiile de calitate de obicei nu existau. La fel ca în exemplul de astronaut de mai sus, datele care au fost utilizabile de către o funcție de afaceri au fost inutilizabile de alții. Iar accesibilitatea la datele din procesele originale de afaceri a fost limitată, în cel mai bun caz, pentru funcțiile care altfel ar fi putut fi optimizate.

Enigma de copiere

Pentru a rezolva această problemă, inginerii au început să facă copii ale bazelor de date originale deoarece, până de curând, era cea mai bună opțiune disponibilă. Apoi au transformat acele copii pentru a satisface cerințele funcției consumatoare, aplicând reguli de calitate a datelor și logica de remediere exclusivă funcției consumatoare. Au făcut multe copii și le-au încărcat în mai multe depozite de date și sisteme de analiză.

Rezultatul? Un depășire de copii de seturi de date care se citesc ca „murdar” pentru unele părți ale organizației, provocând confuzie cu privire la care copie este cea corectă. Companiile au astăzi sute de copii ale datelor sursă în depozite de date operaționale, baze de date, depozite de date, lacuri de date, casete de testare analitice și foi de calcul în centre de date și în mai multe nori. Cu toate acestea, ofițerii șefi de informații și ofițerii șefi de date nu au nici control asupra numărului de copii generate și nici nu cunoaște care versiune reprezintă o sursă autentică de adevăr.

O serie de produse software pentru guvernarea datelor sunt disponibile pentru a aduce ordine în această mizerie. Acestea includ cataloage de date, sisteme de măsurare a calității datelor și de soluționare a problemelor, sisteme de gestionare a datelor de referință, sisteme de gestionare a datelor de bază, descoperirea liniei de date și sisteme de management.

Dar aceste remedii sunt costisitoare și necesită mult timp. Un proiect tipic de gestionare a datelor de bază pentru integrarea datelor clienților din mai multe surse de date din diferite linii de produse poate dura ani și poate costa milioane de dolari. În același timp, volumul datelor murdare crește cu viteze care depășesc eforturile organizaționale de a instala controale și guvernanță.

Aceste abordări sunt pline de defecte. Ei se bazează pe procese manuale, logica de dezvoltare sau reguli de afaceri pentru a executa sarcinile de inventariere, măsurare și remediere a datelor. 

Recuperarea controlului

Trei tehnologii emergente sunt cele mai potrivite pentru a aborda situația dificilă actuală: guvernanța datelor bazată pe inteligență artificială și învățare automată, platforme de interoperabilitate semantică, cum ar fi graficele de cunoștințe și sisteme de distribuție a datelor, cum ar fi registrele distribuite: 

1. Soluții de guvernare a datelor bazate pe inteligență artificială și învățare automată reduce dependența de oameni și cod. AI și învățarea automată înlocuiesc munca manuală cu acțiuni care includ etichetarea automată, organizarea și supravegherea unor ramuri masive de date. Transformarea și migrarea managementului datelor reduc costurile IT. Organizațiile pot construi, de asemenea, arhitecturi mai robuste și durabile care încurajează calitatea datelor la scară.

2. Grafice de cunoștințe permite interoperabilitatea nativă a activelor de date disparate, astfel încât informațiile să poată fi combinate și înțelese într-un format comun. Prin valorificarea ontologiilor semantice, organizațiile pot proteja datele pentru viitor cu context și un format comun pentru reutilizare de către mai mulți factori interesați.

3. registre distribuite, confidențialitate diferențială și virtualizare eliminați nevoia de a copia fizic datele. Registrele contabile distribuite cuprind baze de date federate și guvernate, utilizabile în unitățile de afaceri și organizații. Confidențialitatea diferențială face posibilă mascarea datelor pentru a respecta cerințele de conformitate, partajându-le simultan cu părțile interesate. Virtualizarea permite generarea datelor într-un mediu virtual mai degrabă decât într-un mediu fizic.

Odată ce CIO și CDO înțeleg că rădăcina problemei este infrastructura moștenită care creează silozuri de date, aceștia pot îmbunătăți arhitecturile de bază și strategiile de infrastructură de date.

Datele murdare limitează capacitatea unei organizații de a lua decizii informate și de a opera cu precizie și agilitate. Organizațiile trebuie să preia controlul asupra datelor lor și să încurajeze interoperabilitatea, calitatea și accesibilitatea datelor. Acest lucru va oferi avantaje competitive și va șterge vulnerabilitățile de securitate și conformitate.

Timestamp-ul:

Mai mult de la VERSITATE DE DATE