Anti-Spam
Filtrage statistique (Bayésien)
Type de filtre
Filtre statistique appliqué au contenu (texte).
Description
Utilise la technique dite: "des réseaux bayesiens", décrit dans un article de Paul Graham.
Le filtre calcule des probabilités conditionnelles en fonction des informations observées (situées dans une base de données); chaque mot d'un message est évalué suivant les probabilités qu'il se trouve dans un message défini comme indésirable ou non.
Ce filtre est donc basé sur le théorème de Bayes, dont la formule mathématique est:
La probabilité qu'un courrier soit un pourriel, compte tenu qu'il contienne certains mots,
est égale à la probabilité de trouver ces mots dans un pourriel multipliée par la probabilité qu'un courrier soit un pourriel,
divisé par la probabilité de trouver ces mots dans un courrier.
Etape 1 : L'apprentissage
Le mécanisme d'apprentissage, permet de personnaliser le filtrage suivant les utilisateurs. L'utilisateur doit indiquer au filtre les courriels qu'il considère comme indésirables. Une probabilité sur la récurrence des mots est définie.
Etape 2 : L'affectation d'un poids
Permet de déterminer la probabilité qu'un courrier soit indésirable, en combinant les probabilités de chaque mot référencé avec l'ensemble des mots du courrier.
Etape 3 : Le marquage
Fixe définitivement le statut du courriel, par rapport à une valeur de référence prédéfinie.
Exemple: Si le poids dépasse 0.8, le courriel est considéré comme un pourriel, et sera marqué dans l'entête (et/ou dans le sujet).
Comparaison d'algorithme
La manière de calculer la probabilité est différente suivant les outils utilisés, puisque chaque outil intègre une variante de l'algorithme du théorème de Bayes.
Algorithme de Bayes natif (ancienne version d'anti-spam) |
Algorithme de Bayes évolué (spambayes / spamassasin) |
![]() |
![]() |
0 | Certain que c'est du HAM |
100 | Certain que c'est du SPAM |
Nous constatons que la fourchette de détection franche (43 - 67) est beaucoup plus resserrée sur les algorithmes récents (graphique de droite).
Avantages du filtre
- Adaptation à l'utilisateur,
- Outils existants très perfectionnés,
- Large base de données pré-établie, d'ou une meilleure détection.
Inconvénients du filtre
- Technique de l'empoisonnement bayesien de plus en plus utilisée, c'est-à-dire, des SPAMs contenant des mots courants.
- Les faux-négatifs peuvent être fréquents.