Osservabilità dei dati: cos'è e perché è importante - DATAVERSITY

Osservabilità dei dati: cos'è e perché è importante – DATAVERSITY

Nodo di origine: 2691645
osservabilità dei datiosservabilità dei dati

Come processo, l'osservabilità dei dati viene utilizzata dalle aziende che lavorano con enormi quantità di dati. Molte grandi organizzazioni moderne cercano di monitorare i propri dati utilizzando una varietà di applicazioni e strumenti. Sfortunatamente, poche aziende sviluppano la visibilità necessaria per una panoramica realistica. 

L'osservabilità dei dati fornisce tale panoramica, per eliminare i problemi di flusso di dati il ​​più rapidamente possibile.

Il processo di osservabilità include una varietà di metodi e tecnologie che aiutano a identificare e risolvere i problemi relativi ai dati in tempo reale. Questo processo crea una mappa multidimensionale dell'intero flusso di dati di un'azienda, offrendo informazioni più approfondite sulle prestazioni del sistema e sulla qualità dei dati. 

Alla domanda sull'osservabilità dei dati, Ryan Yackel, CMO di Databand, una società IBM, ha commentato:

“Poiché il volume, la velocità e la complessità delle pipeline di big data continuano a crescere, le aziende si affidano ai team di ingegneria dei dati e della piattaforma come spina dorsale delle loro attività basate sui dati. Il problema è che la maggior parte di queste squadre ha il bel da fare per loro. Stanno combattendo i dati con incidenti di affidabilità e qualità, rendendo difficile concentrarsi su iniziative strategiche che coinvolgono AL/ML, analisi e prodotti di dati. L'osservabilità dei dati fornisce una soluzione.

Inizialmente, l'osservabilità dei dati potrebbe sembrare una forma di lignaggio di dati, ma i due processi hanno scopi diversi. 

L'osservabilità dei dati si concentra sulla risoluzione dei problemi con i dati in modo rapido ed efficiente attraverso l'uso di un sistema di misurazione. La derivazione dei dati, tuttavia, viene utilizzata principalmente per la raccolta e l'archiviazione di dati di alta qualità, dati di cui ci si può fidare.

Inoltre, la derivazione dei dati può essere utilizzata come componente per supportare un programma di osservabilità. (Alcuni articoli promuovono l'osservabilità dei dati come se avesse lo stesso scopo della derivazione dei dati, e c'è del vero nell'affermazione. La derivazione dei dati è una componente dell'osservabilità dei dati.) 

Il termine "osservabilità" era originariamente un concetto filosofico sviluppato da Eraclito intorno al 510 a.C. Ha determinato che l'osservabilità richiedeva differenze comparative: il freddo può essere osservato rispetto al caldo. Nel 1871, James C. Maxwell, un fisico, sviluppò l'idea che fosse impossibile conoscere la posizione di tutte le particelle all'interno di un esperimento di termodinamica, ma osservando "alcuni risultati chiave" per i cambiamenti comparativi, si potevano fare previsioni accurate. 

La descrizione dell'osservabilità di Maxwell utilizzando i risultati chiave è stata adattata e applicata a una varietà di applicazioni automatizzate, che vanno dalle apparecchiature di fabbrica ai sensori degli aerei. Il concetto è stato poi abbracciato da DevOps per il debug e la gestione degli "incidenti di produzione", intorno al 2016. Nel 2019, Barr Moses - CEO e co-fondatore di Monte Carlo - ha sviluppato un processo di osservabilità progettato per fornire una panoramica del flusso di dati di un'organizzazione . 

Mosè ha scritto

“L'osservabilità dei dati è la capacità di un'organizzazione di comprendere appieno lo stato di salute dei dati nei propri sistemi. L'osservabilità dei dati elimina i tempi di inattività dei dati applicando le best practice apprese da DevOps a osservabilità della pipeline di dati. "

Cinque pilastri dell'osservabilità dei dati

L'osservabilità dei dati lavora per risolvere i problemi di dati e informazioni fornendo una mappa completa dei dati in tempo reale. Fornisce visibilità per le attività relative ai dati di un'organizzazione. Molte aziende dispongono di dati isolati, che ne bloccano l'osservabilità. I silos di dati devono essere eliminati per supportare un programma di osservabilità dei dati. 

Quando attività come tracciamento, monitoraggio, avvisi, analisi, registrazione e "confronti" vengono eseguite senza un dashboard di osservabilità, può verificarsi una forma di partizionamento organizzativo. Le persone in un reparto non si rendono conto che i loro sforzi hanno conseguenze indesiderate in un altro reparto, ad esempio informazioni mancanti/in silo che promuovono decisioni sbagliate o parte del sistema non funziona e nessuno se ne rende conto. 

Ricorda, l'osservabilità consiste nel prendere le misure di determinati output chiave. I cinque pilastri (o risultati chiave) sviluppati da Barr Moses a scopo di misurazione sono: 

  • Qualità: I dati di alta qualità sono considerati accurati, mentre i dati di bassa qualità non lo sono. Le misurazioni della qualità dei dati forniscono informazioni sull'affidabilità dei dati. Ci sono vari modi misurare Qualità della data.
  • Programma: Ciò comporta cambiamenti nel modo in cui i dati sono organizzati e le misurazioni dello schema possono mostrare interruzioni nel flusso di dati. Determinare quando, come e chi ha apportato le modifiche può essere utile in termini di manutenzione preventiva. 
  • Volume: Grandi quantità di dati sono utili per scopi di ricerca e marketing. Ciò può fornire alle organizzazioni una visione integrata dei propri clienti e del mercato. Più dati attuali e storici vengono utilizzati durante la ricerca, più approfondimenti.
  • Linea di dati: Un buon programma di derivazione dei dati registra le modifiche ai dati e alle relative posizioni e viene normalmente utilizzato per migliorare la qualità dei dati. Tuttavia, può anche essere utilizzato come parte di un programma di osservazione dei dati. In questa veste viene utilizzato per risolvere i problemi che potrebbero verificarsi ed elencare ciò che è stato fatto prima del danno. 
  • Freschezza: Si tratta essenzialmente di non utilizzare vecchie informazioni o, come si riferisce Barr Moses, dati obsoleti. Freschezza enfatizza i dati aggiornati, che sono importanti quando si prendono decisioni basate sui dati. I timestamp sono comunemente usati per determinare se i dati sono vecchi. 

Se combinate, le misurazioni di questi componenti, o pilastri, possono fornire preziose informazioni sui problemi che si sviluppano – o semplicemente compaiono – e promuovono la capacità di effettuare riparazioni il più rapidamente possibile.

Sfide di osservabilità dei dati

La giusta piattaforma di osservabilità dei dati può trasformare il modo in cui le aziende conservano e gestiscono i propri dati. Sfortunatamente, l'implementazione della piattaforma può presentare alcune sfide. I problemi di compatibilità si presenteranno quando la piattaforma non è adatta. 

Le piattaforme e gli strumenti di osservabilità possono essere limitati se la pipeline di dati, il software, i server ei database non sono completamente compatibili. Queste piattaforme non funzionano nel vuoto, quindi è importante eliminarle silos di dati dal sistema e garantire che tutti i sistemi di dati all'interno dell'organizzazione siano integrati. 

È importante testare una piattaforma di osservabilità dei dati prima di firmare un contratto.

Purtroppo, anche quando tutte le fonti di dati interne ed esterne dell'azienda sono integrate correttamente nella piattaforma, sono diverse modelli di dati può causare problemi. Molte aziende supportano 400 o più fonti di dati e ogni fonte esterna può presentare un problema se non utilizza gli stessi standard e formati.

Fatta eccezione per gli strumenti open source, le piattaforme di osservabilità sono basate su cloud e possono offrire una certa flessibilità che supporta la messa a punto. 

Le migliori piattaforme di osservabilità si concentrano su un processo di misurazione standardizzato e linee guida di registrazione. Ciò promuove l'effettiva correlazione delle informazioni, ma le origini dati esterne e le pipeline di dati personalizzate possono causare problemi e richiedere sforzi manuali aggiuntivi per eseguire attività che avrebbero dovuto essere automatizzate.

Inoltre, alcuni strumenti potrebbero comportare costi di archiviazione insoliti che limitano la scalabilità.

Piattaforme di osservazione dei dati

Le piattaforme di osservabilità dei dati in genere contengono una varietà di strumenti utili. Questi includono spesso il supporto automatizzato per la derivazione automatizzata dei dati, l'analisi delle cause principali, la qualità dei dati e il monitoraggio per identificare, risolvere e prevenire le anomalie all'interno del flusso di dati. 

Le piattaforme promuovono una maggiore produttività, pipeline più sane e clienti più felici. Alcune popolari piattaforme di osservabilità dei dati sono:

  • Banda dati fornisce una piattaforma di osservabilità altamente funzionale in grado di rilevare e risolvere i problemi relativi ai dati molto rapidamente, utilizzando un processo di osservabilità continua che identifica i problemi relativi ai dati prima che abbiano un impatto sull'azienda. 
  • Monte Carlo offre una piattaforma di osservabilità che può essere descritta come fornire osservabilità "dalla pipeline a business intelligence.” Porta l'affidabilità dei dati all'orchestrazione di vari servizi e strumenti di dati. 
  • Metapiano caratteristiche di osservabilità end-to-end.
  • Ci sono una varietà di open-source strumenti di osservabilità disponibili, che varrebbe la pena di indagare.

L'importanza dell'osservabilità dei dati

Per le organizzazioni che si occupano di flussi di dati di grandi dimensioni, l'osservabilità può essere utilizzata per monitorare il sistema di dati nel suo insieme e inviare segnali di allarme quando si presenta un problema. 

Man mano che le aziende raccolgono enormi quantità di dati da una varietà di fonti, sviluppano sistemi per gestirli, strato dopo strato. Questi sistemi includono l'archiviazione dei dati, le pipeline di dati e una serie di strumenti. Ogni ulteriore livello di complessità aumenta le possibilità di tempi di inattività dei dati dovuti a problemi come incompatibilità o dati vecchi e mancanti.

Secondo Yackel, “L'uso continuo dell'osservabilità dei dati per monitorare pipeline di dati, set di dati e tabelle di dati avvisa i team di dati quando si verifica un incidente di dati e mostra come risolvere la causa principale, prima che abbia un impatto sulla loro attività. Con l'osservabilità dei dati, l'ingegneria può concentrarsi sulla creazione di ottimi prodotti di dati piuttosto che sulla manutenzione di processi interrotti". 

L'osservabilità dei dati aiuterà le aziende a identificare in modo proattivo la fonte di problemi di pipeline, errori di dati e incoerenze del flusso di dati per rafforzare le relazioni con i clienti e migliorare la qualità dei dati.

Immagine utilizzata su licenza di Shutterstock.com

Timestamp:

Di più da VERSITÀ DEI DATI