Le Data Mining
Le problème du badge
Préparation des données
La résolution présentée ici est fortement inspirée cet article, le but initial étant principalement de présenter quelques aspects du logiciel Weka.
Comme nous l'avons vu à plusieurs reprises, l'étape de préparation des données est essentielle. On cherche ici à connaitre la relation entre un nom et l'attribution des badges.
Autrement dit nous avons en entrée une chaine de caractère, qui va fournir à la sortie d'une fonction que nous devons découvrir un résultat avec deux valeurs possibles uniquement.
Dans un premier temps nous allons donc travailler sur nos données (les noms) en prenant en compte notre objectif. On essaye donc d'effectuer plusieurs opérations sur ces noms et de stocker les résultats.
Attribute name, and type | Explanation |
---|---|
name {...} | all the names (given in the original) |
length numeric | length of name |
even_odd {0,1} | length of name even or odd? |
first_char_vowel {0,1} | is first character a vowel? |
second_char_vowel {0,1} | is second character a vowel? |
vowels numeric | number of vowels in the name |
consonants numeric | number of consonants |
vowel_consonant_ratio numeric | the ratio of vowels / consonant |
spaces numeric | number of spaces |
dots numeric | number of "." in the name, i.e. name initials |
words numeric | number of words, i.e number of names |
class {+,-} | the badge labels (given in the original) |
Au lieu d'avoir un simple fichier avec les noms et les badges correspondant, nous avons donc de nombreuses informations prêtes à être exploitées. Voici un exemple de ligne de notre fichier de données :
Ameur Foued, 11 , 0 , 1 , 0 , 6 , 4 , 1.50 , 1 , 0 , 2 , -