Désolé, l'outil unique de Data Gouv reste à inventer
Ce ne sera toujours pas pour 2025 : l'outil "miracle" pour la gouvernance des données n'existe pas ; il s'agit plutôt d'une démarche outillée, dont il est important de s'approprier les étapes.
Gouvernance, efficacité, performance... sont à portée de main, pourvu qu'on se penche sérieusement sur un processus fondamental qui structure l'information de son SI.
Alors que les cas d'usage autour de la Data se multiplient, les modèles de données sont relativement négligés, souvent laissés tels qu'ils étaient conçus du temps des bases de données relationnelles (SGBDR) reines. Pourtant, pensée à l'échelle d'une entreprise, la modélisation des données devient la colonne vertébrale de la plateforme data, de la data gouvernance et de la valeur qu'on peut tirer de l'exploitation des données d'une entreprise.
Quel que soit la taille de votre entreprise ou le secteur dans lequel vous exercez, vous avez tout intérêt à entamer une réflexion autour de la cartographie de vos données et de la manière dont vous pourriez les modéliser. Les bénéfices sont multiples : une gouvernance des données facilitée, les promesses de performance des outils de BI et data science tenues, un partage de l'information plus efficace, pour ne citer que les principaux.
La modélisation des données c’est un processus fondamental en gestion de l'information. Elle consiste à créer une représentation abstraite des données d'un système, définissant leur structure, leurs relations et les contraintes qui s'y appliquent. Évidemment, l’informatique, par essence système d’information, est concernée par cette modélisation.
Modéliser les données à l'échelle de l'entreprise est d’abord une affaire de cohérence. Avec la multiplication des espaces où nous stockons et répliquons les données, il devient compliqué de garantir que l’ensemble des transformations est logique et valide. La modélisation qui est d’abord un outil aux mains des data architectes permet de voir les incohérences et de les corriger. C'est par la modélisation des données qu'on s'assure que les données expriment une vue uniforme des activités de l'entreprise et non pas des vues individuelles.
Comme pour une base de donnée individuelle, ça sert aussi à mieux connaître son patrimoine de données. On fait directement le lien avec la gouvernance des données : le modèle de données est la colonne vertébrale de l’ensemble des travaux sur la qualité, l’accessibilité et la conformité.
Évidemment, une meilleure connaissance de l’ensemble des données et de la manière dont elles constituent le reflet de l’activité de l’entreprise doit servir aussi à la génération de valeur par la data. Un data scientist aujourd’hui perd un temps important à simplement chercher où se trouve la donnée qui pourrait être utile à son modèle. Pourquoi ne pas lui donner directement la carte routière du SI dès le début ?
Enfin, c’est un outil « passerelle » qui, quand il est envisagé de manière holistique, fait le lien entre les systèmes d’information et les métiers.
Existe-t-il des schémas types de modèles de données qui peuvent être employés pour une modélisation à l'échelle de l'entreprise et donc qui réconcilient différentes technologies ? Oui. On va alors plutôt se concentrer sur la structure et les relations des données sans se soucier des contraintes techniques spécifiques.
Ces modèles peuvent être rangés dans trois niveaux d'abstraction :
Un modèle, ça reste une simplification de la réalité. Et un modèle sert une finalité. Alors, avant de vous lancer dans un grand programme de cartographie de l'ensemble des vos données, voici 3 conseils issus de mon expérience personnelle :
OK, mais... pourquoi la Verrière du Grand Palais ? D'abord, parce que c'est beau ! Ensuite parce que c'est un ensemble de points reliés dans un système qui arrive à produire une structure suffisamment solide pour abriter des évènements aussi incroyables et variés que des épreuves de JO, des défilés, des expositions...