Le Data Mining

Le problème du badge

Préparation des données

La résolution présentée ici est fortement inspirée cet article, le but initial étant principalement de présenter quelques aspects du logiciel Weka.

Comme nous l'avons vu à plusieurs reprises, l'étape de préparation des données est essentielle. On cherche ici à connaitre la relation entre un nom et l'attribution des badges. Autrement dit nous avons en entrée une chaine de caractère, qui va fournir à la sortie d'une fonction que nous devons découvrir un résultat avec deux valeurs possibles uniquement.

Dans un premier temps nous allons donc travailler sur nos données (les noms) en prenant en compte notre objectif. On essaye donc d'effectuer plusieurs opérations sur ces noms et de stocker les résultats.

Attribute name, and typeExplanation
name {...}all the names (given in the original)
length numericlength of name
even_odd {0,1}length of name even or odd?
first_char_vowel {0,1}is first character a vowel?
second_char_vowel {0,1}is second character a vowel?
vowels numericnumber of vowels in the name
consonants numericnumber of consonants
vowel_consonant_ratio numericthe ratio of vowels / consonant
spaces numericnumber of spaces
dots numericnumber of "." in the name, i.e. name initials
words numericnumber of words, i.e number of names
class {+,-}the badge labels (given in the original)

Au lieu d'avoir un simple fichier avec les noms et les badges correspondant, nous avons donc de nombreuses informations prêtes à être exploitées. Voici un exemple de ligne de notre fichier de données :

Ameur Foued, 11 , 0 , 1 , 0 , 6 , 4 , 1.50 , 1 , 0 , 2 , -

Partie suivante