Plaidoyer pour une modélisation des données à l'échelle de l'entreprise

Gouvernance, efficacité, performance... sont à portée de main, pourvu qu'on se penche sérieusement sur un processus fondamental qui structure l'information de son SI.

Plaidoyer pour une modélisation des données à l'échelle de l'entreprise
La Verrière du Grand Palais en travaux - source beauxarts.com

Alors que les cas d'usage autour de la Data se multiplient, les modèles de données sont relativement négligés, souvent laissés tels qu'ils étaient conçus du temps des bases de données relationnelles (SGBDR) reines. Pourtant, pensée à l'échelle d'une entreprise, la modélisation des données devient la colonne vertébrale de la plateforme data, de la data gouvernance et de la valeur qu'on peut tirer de l'exploitation des données d'une entreprise.

Quel que soit la taille de votre entreprise ou le secteur dans lequel vous exercez, vous avez tout intérêt à entamer une réflexion autour de la cartographie de vos données et de la manière dont vous pourriez les modéliser. Les bénéfices sont multiples : une gouvernance des données facilitée, les promesses de performance des outils de BI et data science tenues, un partage de l'information plus efficace, pour ne citer que les principaux.

Qu'est-ce que la modélisation des données ?

La modélisation des données c’est un processus fondamental en gestion de l'information. Elle consiste à créer une représentation abstraite des données d'un système, définissant leur structure, leurs relations et les contraintes qui s'y appliquent. Évidemment, l’informatique, par essence système d’information, est concernée par cette modélisation. 

A quoi sert une modélisation des données à l’échelle de l’entreprise ? 

Modéliser les données à l'échelle de l'entreprise est d’abord une affaire de cohérence. Avec la multiplication des espaces où nous stockons et répliquons les données, il devient compliqué de garantir que l’ensemble des transformations est logique et valide. La modélisation qui est d’abord un outil aux mains des data architectes permet de voir les incohérences et de les corriger. C'est par la modélisation des données qu'on s'assure que les données expriment une vue uniforme des activités de l'entreprise et non pas des vues individuelles.

Comme pour une base de donnée individuelle, ça sert aussi à mieux connaître son patrimoine de données. On fait directement le lien avec la gouvernance des données : le modèle de données est la colonne vertébrale de l’ensemble des travaux sur la qualité, l’accessibilité et la conformité. 

Évidemment, une meilleure connaissance de l’ensemble des données et de la manière dont elles constituent le reflet de l’activité de l’entreprise doit servir aussi à la génération de valeur par la data. Un data scientist aujourd’hui perd un temps important à simplement chercher où se trouve la donnée qui pourrait être utile à son modèle. Pourquoi ne pas lui donner directement la carte routière du SI dès le début ?

Enfin, c’est un outil « passerelle » qui, quand il est envisagé de manière holistique, fait le lien entre les systèmes d’information et les métiers.

Quels sont les différents types de modèles de données ?

Existe-t-il des schémas types de modèles de données qui peuvent être employés pour une modélisation à l'échelle de l'entreprise et donc qui réconcilient différentes technologies ? Oui. On va alors plutôt se concentrer sur la structure et les relations des données sans se soucier des contraintes techniques spécifiques.

Ces modèles peuvent être rangés dans trois niveaux d'abstraction :

  1. Les modèles conceptuels : c'est le plus haut niveau d'abstraction, on l'utilise pour définir et représenter les concepts métiers et les relations entre eux. Le modèle type ici est le modèle entité-association (MEA) dont on connaît bien la représentation sous forme de diagramme (diagramme entité-relations) ;
  2. Les modèles logiques : ces modèles sont un premier niveau de traduction des concepts métiers en représentation informatique. Il vont plus loin dans la structure des données et comment elles se transforment au cours d'un processus d'entreprise.
    Dans les modèles logiques on retrouve à la fois des schémas logiques et un premier souci de modélisation en vue de l'usage qui sera fait des données. C'est pour cela que le modèle en étoile de R. Kimball est fréquemment rangé dans la catégorie des modèles logiques, l'étoile (et son évolution en flocon) permet d'éviter les redondances et améliorer les performances des requêtes.
    A côté du modèle de Kimball, on retrouve tous les schémas qui ont d'abord été pensés pour les Datawarehouses : Inmon, Data vault, etc.
  3. Les modèles physiques : vus comme le niveau le plus détaillé, proche de l'informatique et des systèmes d'information qu'ils traduisent. Il s'agit ici de faire le lien sur l'ensemble des points de données qui transitent dans les systèmes.

Comment fait-on pour modéliser des données ?

Un modèle, ça reste une simplification de la réalité. Et un modèle sert une finalité. Alors, avant de vous lancer dans un grand programme de cartographie de l'ensemble des vos données, voici 3 conseils issus de mon expérience personnelle :

  • définissez en amont ce que vous allez en faire, quel est le groupe de travail qui sera chargé de la cohérence de l'ensemble et quelle méthode vous souhaitez dérouler pour modéliser ;
  • personnellement j'aime bien adopter l'approche du sablier et la généraliser : identifier quels sont les structures de données déjà présentes au niveau physique dans les bases de données et d'autre part entamer le processus de design du modèle métier au niveau conceptuel, pour réconcilier et formaliser l'ensemble au niveau logique ;
  • un travail de modélisation est un processus dynamique et itératif. Le modèle va donc évoluer et des doutes nécessaires émergeront sur la méthode adoptée et sa continuité. Mais ces questionnements sont les garants de l'utilité du modèle. C'est pourquoi, il sera toujours plus efficace de commencer petit et localisé pour étendre l'expérience par la suite.

OK, mais... pourquoi la Verrière du Grand Palais ? D'abord, parce que c'est beau ! Ensuite parce que c'est un ensemble de points reliés dans un système qui arrive à produire une structure suffisamment solide pour abriter des évènements aussi incroyables et variés que des épreuves de JO, des défilés, des expositions...

Génial ! Vous vous êtes inscrit avec succès.

Bienvenue de retour ! Vous vous êtes connecté avec succès.

Vous êtes abonné avec succès à WENVISION.

Succès ! Vérifiez votre e-mail pour obtenir le lien magique de connexion.

Succès ! Vos informations de facturation ont été mises à jour.

Votre facturation n'a pas été mise à jour.