Le Data Mining

Le Data Mining

Démarche

Le Data Mining est une discipline dans laquelle on travaille en mode projet.
L'objectif est particulièrement important, on peut le voir comme la question à laquelle on souhaite répondre à partir des données.
L'étape de préparation des données est également essentielle, notamment du fait de l'hétérogénéité des données (on peut à la fois travailler sur des données structurées, comme les bases des données relationnelles, et sur des données non structurées, comme du son ou de la vidéo par exemple). Le but de cette étape est d'organiser et de classer les données en vue de les utiliser lors de l'étape suivante (on estime cette étape à environ 40% de la charge de travail d'un projet de Data Mining). Vient ensuite l'étape d'élaboration et de choix des modèles à appliquer (modèles issues de l'Intelligence Artificielle, des statistiques...etc) sur les données, en vue d'en extraire les connaissances recherchées dans le cadre de l'objectif initial.
Enfin, le Data Mining nécessite le plus souvent l'intervention d'un expert métier, pour évaluer, contrôler et exploiter les connaissances extraites. En effet, puisque ces connaissances sont le résultat de traitements semi-automatiques voire automatiques, il est nécessaire de les valider, ce qui ne peut se faire sans comprendre le sens des données en entrée.

Méthodes

Dans les méthodes utilisées par le Data Mining, on distingue deux grandes familles d'algorithmes :

Les méthodes descriptives permettent d'organiser, de simplifier et d'aider à comprendre l'information à partir des sources de données. (par exemple : recherche d'associations / recherche de séquences similaires ...etc)

Les méthodes prédictives visent à expliquer ou prévoir plusieurs phénomènes observables et effectivement mesurés. On cherche à prédire la valeur d'une variable cible à partir des valeurs de prédicteurs. (par exemple : régression linéaire multiple / réseaux de neurones / arbres de régression...) Autrement dit on cherche à anticiper la valeur de quelque chose (par exemple, si un client risque de ne pas pouvoir rembourser un prêt, c'est la variable cible) en fonction de ses caractéristiques connues (âge, emploi, salaire... ce sont les prédicteurs), en se basant pour cela sur les données dont on dispose (les précédents clients et les valeurs des prédicteurs et des variables cibles)

Partie suivante