Concepts de modélisation de données pour les débutants

Concepts de modélisation de données pour les débutants

Nœud source: 2623283
concepts de modélisation de donnéesconcepts de modélisation de données

Les concepts de modélisation des données soutiennent une image globale de la façon dont les données circulent dans un système. La modélisation des données peut être décrite comme le processus de conception d'un système de données ou d'une partie d'un système de données. Ces modèles peuvent aller des systèmes de stockage aux bases de données en passant par l'ensemble de la structure de données de l'organisation. Les modèles de données peuvent être utilisés comme conception pour la mise en œuvre d’un nouveau système ou comme matériel de référence pour des systèmes déjà établis. 

Un modèle de données « complet » doit communiquer les types de données utilisées et stockées dans un système de données, les formats utilisés, les relations entre les fichiers de données et la manière dont les données peuvent être regroupées et organisées.

De nombreuses entreprises développent des modèles de données uniques et individuels (et les systèmes de données uniques et individuels qui en résultent) construits autour des besoins et exigences spécifiques de l'organisation. Ces modèles peuvent être utilisés pour visualiser le mouvement des données dans le système. Un modèle de données peut tenter de couvrir tous les aspects du flux de données via une organisation, ou des paramètres spécifiques, tels que l'affichage uniquement des données de ventes à des fins de recherche.

Un modèle de données bien conçu expliquera le règles commerciales, ainsi que la nécessité de conformité réglementaire des données.

Il y a trois phases dans le processus de modélisation des données : le modèle conceptuel, le modèle logique et le modèle physique. Chaque phase, ou étape du développement du modèle, répond à un objectif spécifique. De plus, il existe plusieurs « types » de modèles.

Les modèles de données visuels sont similaires aux plans d'un architecte et peuvent être accompagnés de texte lié pour fournir des conseils lors du développement ou de la modification du système de données. Des exemples de modèles de données visuelles peuvent être trouvés ici.

Les avantages et les défis de la modélisation des données

Le développement d'un modèle de données fournit une carte et un outil de communication pour créer ou modifier un système de données. Les concepts de modélisation des données facilitent grandement la construction d'un système de données. La base de données et/ou le système de données nouvellement construits doivent prendre en charge de bonnes communications organisationnelles. Il doit également prendre en charge des projets en temps réel, notamment la collecte de données sur les habitudes de dépenses, les factures et d'autres processus métier.

Le processus de modélisation des données peut être utilisé pour identifier Problèmes de qualité des données, y compris les données en double, redondantes et manquantes.

L’une des difficultés liées à la création d’un modèle de données réside dans le manque de compréhension des systèmes de données – un problème normalement éliminé par la construction du modèle. Un autre problème est qu’un petit changement dans un domaine peut nécessiter des changements importants dans d’autres domaines. De plus, il peut être facile de se concentrer à ce point sur la structure du système de données que les forces et les faiblesses des applications individuelles sont ignorées.

Questions importantes à poser

Le développement d'un modèle de données commence par la collecte d'informations sur les besoins, les exigences et les objectifs de l'organisation. La modélisation d’une partie du système nécessitera moins de questions que l’élaboration d’un modèle pour un système entièrement nouveau. Voici quelques questions fondamentales à poser pour un modèle d’une partie du système : 

  • Quel est le but ou le but des changements ?
  • Avec quels types de données le système fonctionne-t-il actuellement ?
  • Quelles données sont nécessaires ?
  • Quels outils ou logiciels sont nécessaires pour atteindre l’objectif ?
  • Les outils ou logiciels sont-ils compatibles ?

Un modèle de données doit être construit autour des besoins de l'organisation et constitue un facteur important dans le développement d'un nouveau modèle ou l'ajustement d'un ancien. Les questions posées lors de la conception d'une base de données ou d'un système entièrement nouveau nécessitent souvent des réponses beaucoup plus approfondies. Il est préférable d'intégrer un plan d'affaires sur cinq ans pour répondre à ces questions : 

  • Quels sont les objectifs de l'entreprise (recherche, ventes, développement d'applications, services de comptabilité) ? Cela déterminera les meilleurs types de logiciels pour soutenir l'entreprise (NoSQL ou graphiques pour la recherche, SQL pour les ventes ou la comptabilité de base, accès à divers cloud ou plusieurs services cloud pour le développement d'applications).
  • Quels types de logiciels sont les plus appropriés et les plus rentables pour l’organisation ?
  • Combien de personnes accéderont simultanément au système ?
  • Combien y a-t-il de départements et combien de personnes y a-t-il dans chaque département ?
  • Les différents départements auront-ils besoin de différents types de logiciels ?
  • Y a-t-il des besoins inhabituels à prendre en compte ? 
  • Quelle quantité de données devra être stockée ?
  • L'évolutivité est-elle un problème ?
  • La base de données se connectera-t-elle à outils de business intelligence?
  • Les requêtes analytiques en ligne (OLAP), le traitement des transactions (OLTP) ou les deux sont-ils nécessaires ?
  • La base de données s'intégrera-t-elle à la pile technologique actuelle ?
  • Le format des données devra-t-il être transformé ?
  • Quels sont vos langages de programmation préférés ?
  • Sera-t-il intégré à un logiciel d’apprentissage automatique ?

Les trois phases de la modélisation des données

La modélisation des données est devenue importante pendant les 1960, lorsque les systèmes d'information de gestion sont devenus populaires pour la première fois. (Avant les années 60, il y avait peu de stockage de données réel. Les ordinateurs de cette époque étaient essentiellement des calculatrices géantes.) 

En termes de concepts de modélisation de données, un modèle de données entièrement développé est souvent construit en trois phases : le modèle conceptuel, le modèle logique et le modèle physique. Ce processus de conception permet de comprendre clairement le système de données et la manière dont les données y circulent. Ce processus montre également comment fonctionnent les procédures de stockage et permet de garantir que tous les objets de données du système sont représentés. (Si les données sont des informations stockées électroniquement, alors un objet de données est une collection individuelle d'informations stockées électroniquement, comme un fichier ou une table de données.)

Le modèle de données conceptuel est généralement utilisé pour décrire les composants les plus élémentaires du système et la manière dont les données circulent dans le système. Le modèle de données conceptuel communique comment les informations circulent d’un département à l’autre. Il montre des entités larges (représentations de choses qui existent dans la réalité) et leurs relations (associations qui existent entre deux ou plusieurs entités). Les informations détaillées sont généralement omises.

Le modèle de données logique se concentre normalement sur la disposition et la structure des objets de données au sein du modèle et établit les relations entre eux. Il fournit également une base pour construire le modèle physique. Le modèle de données logique ajoute des informations utiles au modèle conceptuel.

Le modèle de données physique est essentiellement un modèle de pré-implémentation et est très détaillé et souvent axé sur la conception de la base de données. Il montre les détails nécessaires au développement de la base de données (mais peut également être utilisé pour implémenter une nouvelle partie du système). Ce concept de modélisation des données facilite grandement la visualisation de la structure des données en communiquant les contraintes de la base de données, les clés de colonne, les déclencheurs et d'autres fonctionnalités de gestion des données. Ce modèle communique également les profils d'accès, les autorisations, les clés primaires et étrangères, etc.

Différents types de modèles de données

Vous trouverez ci-dessous quelques exemples des différents types de modèles de données.

Le modèle hiérarchique est assez ancien et était très populaire dans les années 1960 et 70. Il organise les données dans des structures arborescentes. Aujourd'hui, il est principalement utilisé pour stocker des systèmes de classement et des informations géographiques. Dans le modèle hiérarchique, les données sont organisées dans une relation un-à-plusieurs avec les fichiers de données.

Le modèle de réseau est similaire au modèle hiérarchique et permet la création de diverses relations avec des enregistrements liés. Le modèle de réseau permet aux utilisateurs de construire le modèle à l'aide d'ensembles d'enregistrements associés. Chaque enregistrement est associé à plusieurs fichiers et objets de données, favorisant et présentant des relations complexes.

Le modèle entité-relation est une représentation graphique des fichiers de données et des entités et de leurs relations. Il tente de créer des scénarios du monde réel. En tant que modèle de système de données, le modèle entité-relation développe un ensemble d'entités, un ensemble de relations, des attributs et des contraintes. Ils sont souvent utilisés dans la conception de bases de données relationnelles.

Le modèle de données graphiques nécessite de déterminer quelles entités de votre ensemble de données doivent être des nœuds désignés, lesquelles doivent être des liens désignés et lesquelles doivent être ignorées. Le modèle de données graphiques fournit une présentation des entités, des propriétés et des relations des données. Le processus est répétitif, repose sur des essais et des erreurs et peut être fastidieux, mais il vaut la peine d'être bien fait.  

Le modèle de base de données orienté objet se concentre sur les objets de données associés aux méthodes et aux fonctionnalités. Il intègre des tableaux mais ne se limite pas nécessairement aux tableaux. Les données et leurs relations sont stockées ensemble comme une seule entité (un objet de données). Les objets de données représentent des entités du monde réel. Le modèle de base de données orienté objet gère une variété de formats et est utilisé pour la recherche.

Le modèle relationnel, souvent appelé SQL, est actuellement le modèle de données le plus populaire. Il utilise des tableaux bidimensionnels pour stocker les données et communiquer les relations. Toutes les données d'un certain type sont stockées dans des lignes dans le cadre d'un tableau. Les tableaux représentent des relations et leur adhésion établit les relations entre les données stockées. Le modèle de base de données relationnelle est un modèle mature pris en charge par une quantité massive de logiciels destinés à diverses fins.

Le modèle de données NoSQL n'utilise pas de lignes ni de colonnes et n'utilise pas vraiment de structure définie. Leur développement et leur conception sont généralement axés sur la création de modèles de données physiques. L'évolutivité, avec ses particularités et ses problèmes spécifiques, constitue une préoccupation majeure. 

Un modèle de base de données objet-relationnel combine le modèle de base de données orientée objet avec le modèle de base de données relationnelle. Il stocke les objets, les classes, l'héritage, etc., de la même manière qu'un modèle orienté objet, mais prend également en charge les structures tabulaires comme le modèle de base de données relationnelle. Cette conception permet aux concepteurs d'incorporer ses fonctionnalités dans une structure de table.

L'importance des concepts de modélisation des données

Les modèles de données sont comme des plans, mais ils définissent les relations, les entités et les attributs d'une base de données ou d'un système de données. Un modèle de données organisé et bien conçu est nécessaire pour développer une base de données physique et un système de données efficaces. Une bonne compréhension des concepts de modélisation des données est nécessaire pour éliminer les problèmes de stockage et de redondance tout en prenant en charge une récupération efficace des données. 

La modélisation des données peut être un défi, et il est important de reconnaître que chaque type de modèle présente ses propres avantages et inconvénients. 

Image utilisée sous licence de Shutterstock.com

Horodatage:

Plus de DATAVERSITÉ