Entrepot de Donnees
SGBD et Datawarehouse
On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle. En réalité SGBD et datawarehouse ont des objectifs différents. Ils stockent les données de manière différentes et font l'objet de requêtes différentes. Ils sont ainsi basés sur deux systèmes différents : OLTP et OLAP
OLTP
OLTP ( On Line Transaction Processing) est le modèle utilisé par les SGBD. Le mode de travail est transactionnel. L'objectif est de pouvoir insérer, modifier et interroger rapidement et en sécurité la base. Ces actions doivent pourvoir être effectuées très rapidement par de nombreux utilisateurs simultanément. Chaque transaction travail sur de faibles quantités d'informations, et toujours sur les versions les plus récentes des données.
OLAP
Les datawarehouses eux reposent sur le système OLAP (On Line Analytical Processing). Ce système travail en lecture seulement. Les programmes consultent d'importantes quantités de données pour procéder à des analyses. Les objectifs principaux sont regrouper, organiser des informations provenant de sources diverses, les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier, retrouver et analyser l’information facilement et rapidement. Cela nécessite de consulter des versions historiques de la base et peut se permettre d'ignorer temporairement les dernières mises à jour. Ces bases sont souvent d'un ordre de grandeur nettement supérieur à celle des bases OLTP, du fait de la conservation de l'historique.
Comparaison
Voici un tableau récapitulatif des différences entre OLTP et OLAP :
Caractéristiques |
OLTP |
OLAP |
---|---|---|
Utilisation |
SGBD (base de production) |
Datawarehouse |
Opération typique |
Mise à jour |
Analyse |
Type d'accès |
Lecture écriture |
Lecture |
Niveau d'analyse |
Elémentaire |
Global |
Quantité d'information échangées |
Faible |
Importante |
Orientation |
Ligne |
Multidimension |
Taille BD |
Faible (max qq GB) |
Importante (pouvant aller à plusieurs TB). |
Ancienneté des données |
Récente |
Historique |
Separation physique
Il est important de séparer les bases de production (SGBD) du datawarehouse. Pour des raisons de performances premièrement car les systèmes de production ne sont pas prévus pour répondre efficacement aux requêtes des systèmes d'aide à la décision. De plus les systèmes de production ne conservent pas leurs données, alors qu'un datawarehouse reposent sur des données historisées. De plus un datawarehouse se reposent sur des systèmes de production différents dont les données ne sont pas nécessairement uniformisées