|
||||||||||||
![]() |
![]() |
Filtres Bayésiens - Livre blanc - Anti-spamFiltres Bayésiens - Livre blanc - Anti-spam
Tous les grands outils anti-spam côté client (vous, l'internaute, par opposition aux outils anti-spam côté serveur) sont dotés d'un filtre bayésiens [9]. De très nombreuses solutions sont open-source dont les clients de messagerie de la fondation Mozilla (Mozilla Suite et Thunderbird) qui intègre un filtre bayésien directement au niveau du client. Des outils anti-spam parmi les plus efficaces, gratuits, s'implantent entre Internet et votre client de messagerie et certains, comme SpamPal, combinent des filtres à règles et un filtre bayésien (SpamPal, le meilleur anti-spam gratuit, combine également des listes noires de blocages tenues en temps réel - RBL et de nombreuses autres technologies).
Les serveurs de messagerie peuvent également trouver des outils disposant de filtres bayésiens comme Bogofilter [3] ou Spambayes [4] [9]. ![]() Les conclusions de ce théorème furent acceptées par Laplace en 1781, redécouvertes par Condorcet en 1785 (théorie des probabilités), discutées par Boole (a qui l'on doit l'algèbre booléenne et la théorie des ensembles) en 1854 (Lois de la pensée)... Alors qu'aucun papier de Thomas Bayes ne fut publié de son vivant, ce théorème est aujourd'hui largement utilisé dans des domaines aussi divers que la génétique, les prévisions boursières, les prévisions météorologiques, les systèmes prédictifs de détection d'intrusion, les causalités de crimes, les investigations et détections de crimes, les prédictions de lieu de prochains crimes par des polices, l'attente des taxis... C'est tout récemment que le théorème de Bayes s'applique au Spam. En Août 2002, Paul Graham publie "A plan for Spam". [1] C'est un spécialiste de Lisp, pas un statisticien. Pour les anti-spam, son article à une portée considérable et tout le monde s'engouffre dans ses algorithmes. Son algorithme est faux mais fonctionnel. Des mathématiciens apportent des critiques constructives. Dès Janvier 2003 Paul Graham publie une amélioration de son algorithme. [2] et mentionne des travaux antérieurs, de 1998 [5] et [6]. Il y a aussi l'article de William Baldwin - 21.09.1998 [7]. En remontant dans le temps, on note que des travaux précédents portaient sur la classification des documents par un ordinateur (gestion documentaire), mais dès 1996 ils portent aussi sur le classement des e-mail et dès 1998 ils portent sur le classement des Spam, terme employé très librement dans les textes sans qu'il soit besoin de l'expliquer, donc il est déjà dans les usages, alors que c'est à peine 4 ans auparavant qu'il vient d'être utilisé dans ce sens pour la première fois et que le spam et à peine en émergence. Il va s'agir de reconnaître la fréquence (le nombre d'occurrences et leur distribution statistique) des mots dans un texte, chaque mot étant converti en un "poids" faisant basculer le texte entier en "Spam" ou "Non Spam". Le "poids" des mots repose sur un système d'apprentissage du filtre bayésien, particulier à chaque internaute. Ainsi le même filtre bayésien donnera des réponses différentes et personnalisées dans la discrimination en deux classes d'objets : "Spam" ou "Non Spam" selon la phase d'apprentissage, sans arrêt mise à jour et de plus en plus précise, que lui aura donné son utilisateur. Chaque fois que le filtre se trompe, il faut le lui dire. Un seul clic suffit sur une zone prévue à cet effet pour corriger le filtre. ![]() Il est admis qu'il faut un corpus d'environ 1.000 Spam et 1.000 correspondances légitimes pour éduquer un filtre bayésien.
La situation idyllique suivante n'existe pas. ![]()
Ressources [1] Paul Graham - "A plan for Spam". Août 2002 http://www.paulgraham.com/paulgraham/spam.html [2] Paul Graham - "Better Bayesian Filtering" http://www.paulgraham.com/paulgraham/better.html [3] BogoFilter http://bogofilter.sourceforge.net/ [4] SpamBayes http://spambayes.sourceforge.net [5] A Bayesian Approach to Filtering Junk E-mail Mehran Sahami, Susan Dumais, David Heckerman, and Eric Horvitz http://research.microsoft.com/~horvitz/junkfilter.htm [6] Patrick Pantel and Dekang Lin. 11 mars 1998. SpamCop A Spam Classification & Organization Program http://www.isi.edu/~pantel/Download/Papers/aaai98.pdf [7] Forbes magazine - Spam killers - William Baldwin - 21.09.1998 http://www.forbes.com/free_forbes/1998/0921/6206254a.html [8] William W. Cohen - Learning rules that classify e-mails In AAAI Spring Symposium on Machines Learning for Information Access - 1996 Pas disponible en ligne. [9] Inventaire des 70 filtres bayésiens en mai 2004. Cette liste est maintenue par Paul Graham mais est reproduite ici car toutes ses pages contiennent des Web Bug (280 Web Bug rien que sur la page d'inventaire des filtres bayésiens ce qui la rend totalement illisible selon les outils anti-web-bug dont on dispose). Pour être complet, ces Web Bug sont, en sus, sur une machine bloquée par toutes les listes hosts.
|
![]() |
|
||||||||
|
||||||||||||
|
||||||||||||
Rédigé en écoutant :
Music |
||||||||||||