Entropie pour juger d'un bon cluster : la
similarité est forte entre les documents d’un même cluster mais faible
avec les documents extérieurs.
Comparaison avec des documents déjà classés… [Zamir
97] propose une fonction pour calculer la qualité d’une classification C
en la comparant avec une classification B de référence (par exemple
établie par un expert…). Soit C la classification obtenue par un
algorithme de classification automatique. La qualité d’un cluster Ci de
C est calculée grâce à plusieurs paramètres :
true_positive(Ci) = nombre de paires de documents dans le cluster
Ci qui apparaissent aussi ensemble dans un cluster de la classification
de référence
false_positive(Ci) = nombre de paires de documents dans le
cluster Ci qui n’apparaissent pas ensemble dans un cluster de la
classification de référence
unclustered(C) = nombre de documents de C qui n’ont été rangés
dans aucun cluster Ci
La qualité de la classification C est donnée par la formule :