Surmonter un monde inondé de données sales

Surmonter un monde inondé de données sales

Nœud source: 2574986

Comme un virus invisible, les « données sales » affligent le monde des affaires d'aujourd'hui. C'est-à-dire que des données inexactes, incomplètes et incohérentes prolifèrent dans le monde actuel centré sur les « mégadonnées ».

Travailler avec des données sales coûte aux entreprises des millions de dollars par an. Cela diminue l'efficience et l'efficacité des départements de l'entreprise et limite les efforts de croissance et d'évolution. Elle entrave la compétitivité, accroît les risques de sécurité et présente des problèmes de conformité.

Ceux en charge de Gestion des données sont aux prises avec ce défi depuis des années. De nombreux outils actuellement disponibles peuvent résoudre les problèmes de gestion des données pour les équipes cloisonnées au sein des départements, mais pas pour l'entreprise dans son ensemble ou pour des écosystèmes de données plus larges. Pire encore, ces outils finissent souvent par créer encore plus de données qui doivent être gérées - et ces données peuvent également devenir sales, causant plus de maux de tête et de pertes de revenus.

Comprendre les données sales

Données sales fait référence à toute donnée qui est trompeur, en double, incorrect ou inexact, pas encore intégré, enfreint les règles commerciales, manque de formatage uniforme ou contient des erreurs de ponctuation ou d'orthographe.

Pour comprendre à quel point les données sales sont devenues omniprésentes au cours des dernières décennies, imaginez le scénario suivant : 

Les prêteurs d'une grande banque deviennent perplexes lorsqu'ils découvrent que presque tous les clients de la banque sont des astronautes. Considérant que la NASA n'a qu'un quelques dizaines d'astronautes, Cela n'a aucun sens. 

Après une exploration plus approfondie, le service des prêts découvre que les agents de la banque ouvrant de nouveaux comptes avaient inséré "astronaute" dans le champ d'occupation du client. Les prêteurs apprennent que la description de poste n'est pas pertinente pour leurs homologues responsables des nouveaux comptes. Les agents de la banque avaient sélectionné "astronaute", la première option disponible, simplement pour se déplacer plus rapidement dans la création de nouveaux comptes.

Les prêteurs, cependant, doivent avoir enregistré les occupations correctes de leurs clients pour obtenir leurs primes annuelles. Pour remédier à la situation, le service prêt développe sa propre base de données distincte. Ils contactent chaque client, apprennent la profession correcte et l'insèrent dans leur base de données.

Désormais, la banque dispose de deux bases de données contenant essentiellement les mêmes informations, à l'exception d'un champ. Si un troisième ministère veut accéder aux informations contenues dans ces bases de données, aucun système n'existe pour déterminer quelle base de données est exacte. Ainsi, ce troisième département pourrait également créer sa propre base de données.

Des scénarios similaires se sont déroulés dans des organisations à l'échelle nationale pendant des décennies.

Décharges de données numériques en plein essor

Les troubles ont commencé dans les années 1990 avec la transformation numérique boom. Les entreprises ont déployé des logiciels d'entreprise pour améliorer leurs processus métier. Les produits logiciels en tant que service de Salesforce, par exemple, ont permis de mieux gérer les systèmes de vente et de marketing.

Mais 30 ans plus tard, une telle infrastructure héritée a entraîné un cauchemar de gestion des données. Des silos de données disparates avec des tonnes d'informations en double, incomplètes et incorrectes parsèment le paysage des entreprises et du secteur public. Ces silos comprennent des secteurs d'activité, des zones géographiques et des fonctions qui possèdent et supervisent respectivement leurs sources de données.

Au-delà de cela, la génération de données a augmenté de façon exponentielle au fil des décennies. Chaque processus métier nécessite désormais son propre logiciel, produisant toujours plus de données. Les applications enregistrent chaque action dans leurs bases de données natives, et des obstacles à l'exploitation des ressources de données nouvellement créées sont apparus.

Au cours des décennies précédentes, le vocabulaire définissant les données était spécifique au processus métier qui les créait. Les ingénieurs ont dû traduire ces lexiques en dictionnaires discrets pour les systèmes consommant les données. Les garanties de qualité n'existaient généralement pas. Comme dans l'exemple de l'astronaute ci-dessus, les données qui étaient utilisables par une fonction commerciale étaient inutilisables par les autres. Et l'accessibilité aux données des processus métier d'origine était limitée, au mieux, pour les fonctions qui auraient autrement pu être optimisées.

L'énigme de la copie

Pour résoudre ce problème, les ingénieurs ont commencé à faire des copies des bases de données originales car, jusqu'à récemment, c'était la meilleure option disponible. Ils ont ensuite transformé ces copies pour répondre aux exigences de la fonction consommatrice, en appliquant des règles de qualité des données et une logique de correction exclusives à la fonction consommatrice. Ils ont fait de nombreuses copies et les ont chargées dans plusieurs entrepôts de données et systèmes d'analyse.

Le résultat? Un débordement de copies d'ensembles de données qui se lisent comme «sales» pour certaines parties de l'organisation, provoquant une confusion quant à savoir quelle copie est la bonne. Les entreprises disposent aujourd'hui de centaines de copies de données sources dans des magasins de données opérationnelles, des bases de données, des entrepôts de données, des lacs de données, des bacs à sable d'analyse et des feuilles de calcul dans des centres de données et plusieurs clouds. Pourtant, les directeurs de l'information et les directeurs des données n'ont ni contrôle sur le nombre de copies générées ni connaissance de la version qui représente une véritable source de vérité.

Une multitude de produits logiciels de gouvernance des données sont disponibles pour mettre de l'ordre dans ce gâchis. Ceux-ci incluent les catalogues de données, les systèmes de mesure de la qualité des données et de résolution des problèmes, les systèmes de gestion des données de référence, les systèmes de gestion des données de référence, la découverte de la lignée des données et les systèmes de gestion.

Mais ces remèdes sont coûteux et chronophages. Un projet typique de gestion des données de référence visant à intégrer des données client provenant de plusieurs sources de données de différentes gammes de produits peut prendre des années et coûter des millions de dollars. Dans le même temps, le volume de données sales augmente à des vitesses qui dépassent les efforts organisationnels pour installer des contrôles et une gouvernance.

Ces approches sont pleines de défauts. Ils s'appuient sur des processus manuels, une logique de développement ou des règles métier pour exécuter les tâches d'inventaire, de mesure et de correction des données. 

Reprendre le contrôle

Trois technologies émergentes sont les mieux adaptées pour faire face à la situation actuelle : la gouvernance des données basée sur l'IA et l'apprentissage automatique, les plates-formes d'interopérabilité sémantique telles que les graphes de connaissances et les systèmes de distribution de données tels que les registres distribués : 

1. Solutions de gouvernance des données basées sur l'IA et l'apprentissage automatique réduire la dépendance vis-à-vis des personnes et du code. L'intelligence artificielle et l'apprentissage automatique remplacent le travail manuel par des actions telles que le marquage automatique, l'organisation et la supervision d'énormes quantités de données. La transformation et la migration de la gestion des données réduisent les coûts informatiques. Les organisations peuvent également créer des architectures plus robustes et durables qui encouragent la qualité des données à grande échelle.

2. Graphes de connaissances permettre l'interopérabilité native d'actifs de données disparates afin que les informations puissent être combinées et comprises sous un format commun. En tirant parti des ontologies sémantiques, les organisations peuvent pérenniser les données avec un contexte et un format commun pour une réutilisation par plusieurs parties prenantes.

3. Grands livres distribués, confidentialité différentielle et virtualisation élimine le besoin de copier physiquement les données. Les registres distribués comprennent des bases de données fédérées et gouvernées utilisables dans les unités commerciales et les organisations. La confidentialité différentielle permet de masquer les données pour respecter les exigences de conformité, tout en les partageant simultanément avec les parties prenantes. La virtualisation permet de faire tourner les données dans un environnement virtuel plutôt que physique.

Une fois que les DSI et les CDO ont compris que l'origine du problème est l'infrastructure héritée qui crée des silos de données, ils peuvent améliorer les architectures sous-jacentes et les stratégies d'infrastructure de données.

Les données sales limitent la capacité d'une organisation à prendre des décisions éclairées et à fonctionner avec précision et agilité. Les organisations doivent prendre le contrôle de leurs données et encourager l'interopérabilité, la qualité et l'accessibilité des données. Cela fournira des avantages concurrentiels et éliminera les vulnérabilités en matière de sécurité et de conformité.

Horodatage:

Plus de DATAVERSITÉ