Observabilité des données : qu'est-ce que c'est et pourquoi c'est important - DATAVERSITY

Observabilité des données : qu'est-ce que c'est et pourquoi c'est important – DATAVERSITY

Nœud source: 2691645
observabilité des donnéesobservabilité des données

En tant que processus, l'observabilité des données est utilisée par les entreprises travaillant avec des quantités massives de données. De nombreuses grandes organisations modernes tentent de surveiller leurs données à l'aide d'une variété d'applications et d'outils. Malheureusement, peu d'entreprises développent la visibilité nécessaire à une vue d'ensemble réaliste. 

L'observabilité des données fournit cette vue d'ensemble, pour éliminer les problèmes de flux de données le plus rapidement possible.

Le processus d'observabilité comprend une variété de méthodes et de technologies qui aident à identifier et à résoudre les problèmes de données en temps réel. Ce processus crée une carte multidimensionnelle de l'ensemble du flux de données d'une entreprise, offrant des informations plus approfondies sur les performances du système et la qualité des données. 

Interrogé sur l'observabilité des données, Ryan Yackel, CMO de Databand, une société IBM, a commenté :

« À mesure que le volume, la vitesse et la complexité des pipelines de données volumineuses continuent de croître, les entreprises comptent sur les équipes d'ingénierie et de plate-forme de données comme piliers de leurs activités axées sur les données. Le problème est que la plupart de ces équipes ont du pain sur la planche. Ils combattent les données avec des incidents de fiabilité et de qualité, ce qui rend difficile la concentration sur des initiatives stratégiques impliquant l'AL/ML, l'analyse et les produits de données. L'observabilité des données apporte une solution.

Au départ, l'observabilité des données pourrait sembler être une forme de lignage de données, mais les deux processus ont des objectifs différents. 

L'observabilité des données se concentre sur la résolution rapide et efficace des problèmes liés aux données grâce à l'utilisation d'un système de mesure. Le lignage des données, cependant, est principalement utilisé pour collecter et stocker des données de haute qualité - des données fiables.

De plus, le lignage des données peut être utilisé comme composant pour soutenir un programme d'observabilité. (Certains articles promeuvent l'observabilité des données comme servant le même objectif que la lignée des données, et il y a une part de vérité dans cette affirmation. La lignée des données est une composante de l'observabilité des données.) 

Le terme « observabilité » était à l'origine un concept philosophique développé par Héraclite vers 510 avant notre ère. Il a déterminé que l'observabilité nécessitait des différences comparatives - le froid peut être observé par rapport à la chaleur. En 1871, James C. Maxwell, un physicien, a développé l'idée qu'il était impossible de connaître l'emplacement de toutes les particules dans une expérience thermodynamique, mais en observant "certaines sorties clés" pour des changements comparatifs, des prédictions précises pouvaient être faites. 

La description de Maxwell de l'observabilité à l'aide de résultats clés a été adaptée et appliquée à une variété d'applications automatisées, allant de l'équipement d'usine aux capteurs d'avion. Le concept a ensuite été adopté par DevOps pour le débogage et le traitement des « incidents de production », vers 2016. En 2019, Barr Moses - PDG et co-fondateur de Monte Carlo - a développé un processus d'observabilité conçu pour fournir une vue d'ensemble du flux de données d'une organisation. . 

Moïse a écrit

« L'observabilité des données est la capacité d'une organisation à comprendre pleinement la santé des données dans ses systèmes. L'observabilité des données élimine les temps d'arrêt des données en appliquant les meilleures pratiques apprises DevOps à observabilité du pipeline de données. »

Cinq piliers de l'observabilité des données

L'observabilité des données permet de résoudre les problèmes de données et d'informations en fournissant une carte complète des données en temps réel. Il offre une visibilité sur les activités de données d'une organisation. De nombreuses entreprises disposent de données cloisonnées, ce qui bloque l'observabilité. Les silos de données doivent être éliminés pour soutenir un programme d'observabilité des données. 

Lorsque des activités telles que le suivi, la surveillance, l'alerte, l'analyse, la journalisation et les « comparaisons » sont effectuées sans tableau de bord d'observabilité, une forme de partitionnement organisationnel peut avoir lieu. Les employés d'un service ne réalisent pas que leurs efforts ont des conséquences imprévues dans un autre service, comme des informations manquantes/cloisonnées favorisant une mauvaise prise de décision ou une partie du système est en panne et personne ne s'en rend compte. 

N'oubliez pas que l'observabilité consiste à prendre les mesures de certains extrants clés. Les cinq piliers (ou résultats clés) développés par Barr Moses à des fins de mesure sont : 

  • Qualité: Les données de haute qualité sont considérées comme exactes, tandis que les données de faible qualité ne le sont pas. Les mesures de la qualité des données permettent de savoir si vos données sont fiables. Il existe une variété de façons mesurer Qualité des données.
  • Schéma: Cela implique des changements dans la façon dont les données sont organisées, et les mesures de schéma peuvent montrer des ruptures dans le flux de données. Déterminer quand, comment et qui a effectué les changements peut être utile en termes de maintenance préventive. 
  • Volume: De grandes quantités de données sont utiles à des fins de recherche et de marketing. Cela peut fournir aux organisations une vue intégrée de leurs clients et de leur marché. Plus les données actuelles et historiques utilisées au cours de la recherche sont nombreuses, plus il y a d'informations.
  • Lignage des données : Un bon programme de lignage des données enregistre les modifications apportées aux données et à leurs emplacements, et est normalement utilisé pour améliorer la qualité des données. Cependant, il peut également être utilisé dans le cadre d'un programme d'observation de données. À ce titre, il est utilisé pour dépanner les pannes qui pourraient survenir et répertorier ce qui a été fait avant les dommages. 
  • Fraîcheur: Il s'agit essentiellement de ne pas utiliser d'anciennes informations ou, comme l'appelle Barr Moses, des données obsolètes. Fraîcheur met l'accent sur les données à jour, ce qui est important lors de la prise de décisions basées sur les données. Les horodatages sont couramment utilisés pour déterminer si les données sont anciennes. 

Lorsqu'elles sont combinées, les mesures de ces composants, ou piliers, peuvent fournir des informations précieuses sur les problèmes qui se développent - ou simplement apparaissent - et favorisent la capacité à effectuer les réparations le plus rapidement possible.

Défis d'observabilité des données

La bonne plateforme d'observabilité des données peut transformer la façon dont les entreprises entretiennent et gèrent leurs données. Malheureusement, la mise en œuvre de la plateforme peut présenter certains défis. Des problèmes de compatibilité se présenteront lorsque la plate-forme sera mal adaptée. 

Les plates-formes et outils d'observabilité peuvent être restreints si le pipeline de données, le logiciel, les serveurs et les bases de données ne sont pas complètement compatibles. Ces plates-formes ne fonctionnent pas dans le vide, il est donc important d'éliminer tout silos de données du système et s'assurer que tous les systèmes de données au sein de l'organisation sont intégrés. 

Il est important de tester une plateforme d'observabilité des données avant de signer un contrat.

Malheureusement, même lorsque toutes les sources de données internes et externes de l'entreprise sont correctement intégrées à la plateforme, différentes modèles de données peut causer des problèmes. De nombreuses entreprises prennent en charge 400 sources de données ou plus, et chaque source externe peut présenter un problème si elle n'utilise pas les mêmes normes et formats.

À l'exception des outils open source, les plates-formes d'observabilité sont basées sur le cloud et peuvent offrir une certaine flexibilité permettant un réglage fin. 

Les meilleures plateformes d'observabilité se concentrent sur un processus de mesure standardisé et des directives de journalisation. Cela favorise la corrélation efficace des informations, mais les sources de données externes et les pipelines de données personnalisés peuvent causer des problèmes et nécessiter des efforts manuels supplémentaires pour accomplir des tâches qui auraient dû être automatisées.

De plus, certains outils peuvent entraîner des coûts de stockage inhabituels qui limitent l'évolutivité.

Plateformes d'observation de données

Les plates-formes d'observabilité des données contiennent généralement une variété d'outils utiles. Celles-ci incluent souvent une prise en charge automatisée du lignage automatisé des données, de l'analyse des causes profondes, de la qualité des données et de la surveillance pour identifier, résoudre et prévenir les anomalies dans le flux de données. 

Les plates-formes favorisent une productivité accrue, des pipelines plus sains et des clients plus satisfaits. Certaines plates-formes d'observabilité de données populaires sont :

  • Bande de données fournit une plate-forme d'observabilité hautement fonctionnelle capable de détecter et de résoudre très rapidement les problèmes de données, à l'aide d'un processus d'observabilité continu qui identifie les problèmes de données avant qu'ils n'affectent votre entreprise. 
  • Monte Carlo offre une plate-forme d'observabilité qui peut être décrite comme fournissant une observabilité "du pipeline à l'intelligence d'entreprise.” Il apporte la fiabilité des données à l'orchestration de divers services et outils de données. 
  • Métaplan offre une observabilité de bout en bout.
  • Il existe une variété de open-source outils d'observabilité disponibles, qui mériteraient d'être étudiés.

L'importance de l'observabilité des données

Pour les organisations traitant de grands flux de données, l'observabilité peut être utilisée pour surveiller le système de données dans son ensemble et envoyer des signaux d'alerte lorsqu'un problème se présente. 

Au fur et à mesure que les entreprises collectent des quantités massives de données à partir de diverses sources, elles développent des systèmes pour les gérer, couche après couche. Ces systèmes comprennent le stockage de données, les pipelines de données et un certain nombre d'outils. Chaque couche supplémentaire de complexité augmente les risques d'indisponibilité des données en raison de problèmes tels que des incompatibilités ou des données anciennes et manquantes.

Selon Yackel, "L'utilisation continue de l'observabilité des données pour surveiller les pipelines de données, les ensembles de données et les tables de données alerte les équipes de données lorsqu'un incident de données se produit et montre comment résoudre la cause première avant qu'elle n'affecte leur activité. Grâce à l'observabilité des données, l'ingénierie peut se concentrer sur la création de produits de données de qualité plutôt que sur la maintenance de processus défaillants. » 

L'observabilité des données aidera les entreprises à identifier de manière proactive la source des problèmes de pipeline, des erreurs de données et des incohérences de flux de données afin de renforcer les relations avec les clients et d'améliorer la qualité des données.

Image utilisée sous licence de Shutterstock.com

Horodatage:

Plus de DATAVERSITÉ