Superare un mondo inondato di dati sporchi

Superare un mondo inondato di dati sporchi

Nodo di origine: 2574986

Come un virus invisibile, i “dati sporchi” affliggono il mondo degli affari di oggi. Vale a dire, nel mondo odierno incentrato sui “big data” proliferano dati imprecisi, incompleti e incoerenti.

Lavorare con dati sporchi costa alle aziende milioni di dollari ogni anno. Diminuisce l’efficienza e l’efficacia dei reparti dell’azienda e limita gli sforzi di crescita e scalabilità. Ostacola la competitività, aumenta i rischi per la sicurezza e presenta problemi di conformità.

I responsabili di Gestione dei dati sono alle prese con questa sfida da anni. Molti degli strumenti attualmente disponibili possono risolvere i problemi di gestione dei dati per i team isolati all’interno dei dipartimenti, ma non per l’azienda in generale o per ecosistemi di dati più ampi. Quel che è peggio, questi strumenti finiscono spesso per creare ancora più dati che devono essere gestiti e che anche questi dati possono sporcarsi, causando ulteriori grattacapi e perdite di entrate.

Comprendere i dati sporchi

Dati sporchi si riferisce a qualsiasi dato che sia fuorviante, duplicato, errato o impreciso, non ancora integrato, che violi le regole aziendali, privo di formattazione uniforme o contenente errori di punteggiatura o ortografia.

Per comprendere quanto i dati sporchi siano diventati onnipresenti negli ultimi decenni, immagina il seguente scenario: 

I finanziatori di una grande banca rimangono perplessi quando scoprono che quasi tutti i clienti della banca sono astronauti. Considerando che la NASA ha solo un qualche decina di astronauti, questo non ha senso. 

Dopo un'ulteriore esplorazione, il dipartimento prestiti scopre che i funzionari di banca che aprivano nuovi conti avevano inserito "astronauta" nel campo di occupazione del cliente. I finanziatori apprendono che la descrizione del lavoro è irrilevante per le loro controparti responsabili dei nuovi conti. I funzionari della banca avevano selezionato “astronauta”, la prima opzione disponibile, semplicemente per muoversi più rapidamente nella creazione di nuovi conti.

Gli istituti di credito, tuttavia, devono avere registrate le occupazioni corrette dei loro clienti per ottenere i loro bonus annuali. Per porre rimedio alla situazione, il dipartimento prestiti sviluppa un proprio database separato. Contattano ogni cliente, imparano l'occupazione corretta e la inseriscono nel loro database.

Ora la banca dispone di due database con essenzialmente le stesse informazioni, ad eccezione di un campo. Se un terzo dipartimento desidera accedere alle informazioni contenute in tali database, non esiste alcun sistema per determinare quale database sia accurato. Quindi, anche quel terzo dipartimento potrebbe creare il proprio database.

Scenari simili si sono verificati nelle organizzazioni a livello nazionale per decenni.

Discariche di dati digitali in espansione

I problemi iniziarono negli anni '1990 con il trasformazione digitale boom. Le aziende hanno implementato software aziendali per migliorare i propri processi aziendali. I prodotti Software-as-a-Service di Salesforce, ad esempio, hanno consentito modalità migliori per gestire i sistemi di vendita e marketing.

Ma 30 anni dopo, tale infrastruttura legacy si è trasformata in un incubo per la gestione dei dati. Silos di dati disparati con risme di informazioni duplicate, incomplete e errate punteggiano il panorama aziendale e del settore pubblico. Questi silos comprendono linee di business, aree geografiche e funzioni che rispettivamente possiedono e supervisionano le proprie fonti di dati.

Oltre a ciò, la generazione di dati è aumentata in modo esponenziale nel corso dei decenni. Ogni processo aziendale ora necessita del proprio software, producendo sempre più dati. Le applicazioni registrano ogni azione nei loro database nativi e sono emersi ostacoli all'estrazione delle risorse di dati appena create.

Nei decenni precedenti, i dati che definivano il vocabolario erano specifici del processo aziendale che li creava. Gli ingegneri hanno dovuto tradurre quei lessici in dizionari discreti per i sistemi che utilizzavano i dati. Le garanzie di qualità in genere non esistevano. Come nell'esempio dell'astronauta sopra, i dati utilizzabili da una funzione aziendale erano inutilizzabili da altre. Inoltre, l'accessibilità ai dati provenienti dai processi aziendali originali era limitata, nella migliore delle ipotesi, a funzioni che altrimenti avrebbero potuto essere ottimizzate.

L'enigma della copia

Per risolvere questo problema, gli ingegneri hanno iniziato a creare copie dei database originali perché, fino a poco tempo fa, era la migliore opzione disponibile. Hanno quindi trasformato quelle copie per soddisfare i requisiti della funzione di consumo, applicando regole di qualità dei dati e logica di riparazione esclusive della funzione di consumo. Hanno fatto molte copie e le hanno caricate in più data warehouse e sistemi di analisi.

Il risultato? Un eccesso di copie di set di dati che vengono interpretate come “sporche” da alcune parti dell’organizzazione, causando confusione su quale sia quella giusta. Oggi le aziende dispongono di centinaia di copie dei dati di origine provenienti da archivi dati operativi, database, data warehouse, data lake, sandbox di analisi e fogli di calcolo all'interno di data center e cloud multipli. Tuttavia, i chief information officer e i chief data officer non hanno né il controllo sul numero di copie generate né la conoscenza di quale versione rappresenti una vera fonte di verità.

Sono disponibili numerosi prodotti software per la governance dei dati per mettere un po’ di ordine in questo caos. Questi includono cataloghi di dati, sistemi di misurazione della qualità dei dati e di risoluzione dei problemi, sistemi di gestione dei dati di riferimento, sistemi di gestione dei dati master, rilevamento della derivazione dei dati e sistemi di gestione.

Ma questi rimedi sono costosi e richiedono molto tempo. Un tipico progetto di gestione dei dati master per integrare i dati dei clienti provenienti da più origini dati provenienti da diverse linee di prodotti può richiedere anni e costare milioni di dollari. Allo stesso tempo, il volume dei dati sporchi sta aumentando a una velocità tale da superare gli sforzi organizzativi volti a installare controlli e governance.

Questi approcci sono pieni di difetti. Si affidano a processi manuali, logica di sviluppo o regole aziendali per eseguire attività di inventario, misurazione e correzione dei dati. 

Recuperare il controllo

Tre tecnologie emergenti sono le più adatte per affrontare la situazione attuale: governance dei dati basata sull’intelligenza artificiale e sull’apprendimento automatico, piattaforme di interoperabilità semantica come i grafici della conoscenza e sistemi di distribuzione dei dati come i registri distribuiti: 

1. Soluzioni di governance dei dati basate sull'intelligenza artificiale e sull'apprendimento automatico ridurre la dipendenza dalle persone e dal codice. L’intelligenza artificiale e l’apprendimento automatico sostituiscono il lavoro manuale con azioni che includono la codifica automatica, l’organizzazione e la supervisione di enormi quantità di dati. La trasformazione e la migrazione della gestione dei dati riducono i costi IT. Le organizzazioni possono anche costruire architetture più robuste e sostenibili che incoraggino la qualità dei dati su larga scala.

2. Grafici della conoscenza consentire l'interoperabilità nativa di risorse di dati disparate in modo che le informazioni possano essere combinate e comprese in un formato comune. Sfruttando le ontologie semantiche, le organizzazioni possono rendere i dati a prova di futuro con un contesto e un formato comune per il riutilizzo da parte di più parti interessate.

3. Registri distribuiti, privacy differenziale e virtualizzazione eliminare la necessità di copiare fisicamente i dati. I registri distribuiti comprendono database federati e governati utilizzabili tra unità aziendali e organizzazioni. La privacy differenziale consente di mascherare i dati per rispettare i requisiti di conformità, condividendoli contemporaneamente con le parti interessate. La virtualizzazione consente la rotazione dei dati in un ambiente virtuale anziché fisico.

Una volta che i CIO e i CDO comprendono che la radice del problema è l'infrastruttura legacy che crea silos di dati, possono migliorare le architetture sottostanti e le strategie dell'infrastruttura dei dati.

I dati sporchi limitano la capacità di un'organizzazione di prendere decisioni informate e di operare con precisione e agilità. Le organizzazioni devono assumere il controllo dei propri dati e incoraggiarne l’interoperabilità, la qualità e l’accessibilità. Ciò fornirà vantaggi competitivi ed eliminerà le vulnerabilità in termini di sicurezza e conformità.

Timestamp:

Di più da VERSITÀ DEI DATI