Entrepot de Donnees
Introduction
Problematique
Les décideurs d'une entreprise doivent pouvoir répondre à un certain nombre de question pour diriger leur entreprise : Qui sont mes clients ? Pourquoi sont ils mes clients ? Comment cibler ma clientèle ? Quel est l'évolution de tel produit ? Qui sont mes employés ? ... L'objectif est donc d'apporter aux décideurs d'une entreprise les moyens de répondre à ces questions.
Utilite d'un datawarehouse
Les sources de données d'une entreprise proviennent essentiellement des bases de production. Ces données sont éparpillées dans des systèmes multiples, pas nécessairement compatibles entre eux. Ces bases sont conçues pour être efficaces pour les fonctions sur lesquelles elles sont spécialistes. Elles sont donc peu structurées pour l'analyse, avec souvent comme objectif principal de conserver l'information. Comme bases de production elles sont focalisées sur les fonctions critiques de l'entreprise, et doivent être en mesure de servir l'utilisateur avec un temps de réponse rapide et structurées dans ce but. Ces systèmes sont donc peu adaptés à la vision à long terme et donc à la prise de décision. Le datawarehouse va avoir pour objectif d'agréger et de valoriser ces données provenant de différentes sources. Il va permettre à l'utilisateur d'y accéder de manière simple et ergonomique.
Definition
Définition
de Bill Inmon (1996):
« Le DataWareHouse est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées
pour le support d'un processus d'aide à la décision. »
Orientés sujet : Les bases de production sont le plus souvent organisées
par processus fonctionnels. Le datawarehouse est lui organisé autour
des sujets majeurs de l'entreprise. Les données sont donc structurés
par thèmes, ces thèmes étant souvent transverses par rapport
aux structures fonctionnelles et organisationnelles de l'entreprise (et donc
transverses par rapport aux systèmes de production).
Illustration 1: Orienté sujet (source : C Vangenot, Laboratoire
de Bases de Données)
Données intégrées : Les données proviennent de plusieurs
sources différentes. Avant d'être intégrées au sein
du datawarehouse elles doivent être mise en forme et unifiées afin
d'en assurer la cohérence. Cela nécessite une forte normalisation,
de bénéficier d'un référentiel unique et cohérent
ainsi que de bonnes règles de gestion. Cette phase est très complexe
et représente une charge importante dans la mise en place d'un datawarehouse.
Illustration 2: Données intégrées (source
: C Vangenot, Laboratoire de Bases de Données)
Données historisées : Contrairement au système de production
les données ne sont jamais mises à jour. Chaque nouvelle données
est insérées. Un référentiel de temps doit être
mis en place afin de pouvoir identifier chaque donnée dans le temps.
Données non volatiles : Un datawarehouse veut conserver la traçabilité
des informations et des décisions prises. Les données ne sont
ni modifiées ni supprimées. Une requête émise sur
les mêmes données à plusieurs mois d'intervalles doit donner
le même résultat.
Un datawarehouse définis donc à la fois un ensemble de données
et un ensemble d'outils. Il s'agit de données destinés aux décideurs,
qui sont souvent une copie des données de production avec une valeur
ajoutées (orientés objet, agrégés, historisées).
Et c'est un ensemble d'outils permettant de regrouper les données des
différentes sources, de les nettoyer et de les intégrer, ainsi
que d'y accéder de différentes manières (requêtes,
rapport, analyse, datamining).