Incapacité des filtres Bayésiens

Un court exemple valant mieux qu'un long discours, voici un exemple (une technique) de saturation statistique utilisée contre les filtres bayésiens.

J'ai reçu le courrier suivant dont :

le sujet ne m'inspire pas : "Extend Your Sexual Stamina".
l'adresse e-mail de l'expéditeur me semble forgée de toutes pièces : UzEIuQ@thepub.co.za.

Normalement, je mets ce type de courriers directement à la poubelle sans les lire mais, pour une fois, j'ai regardé le code source du message ((Affichage > Code source du message)) puis, avec prudence, volet de visualisation de mon client de messagerie (Thunderbird) fermé et connexion Internet débranchée, j'ai affiché le message. Voici l'apparence du message lorsqu'on le lit alors que la connexion Internet est coupée :

Page is loading

Image not showing? See message here.

Stop all announcements.

Donc, mis à part ces quelques mots qui échappent totalement aux filtres par règles, cet e-mail est constitué d'une image qu'il tente de charger depuis un serveur. Cela est suspect car c'est là toute la pratique du Web-Bug et du tracking. D'autre part, l'image peut contenir n'importe quel texte qu'il sera impossible au moindre filtre d'analyser - une image est constituée d'une juxtaposition de points, c'est tout. Même si ces points forment le dessin de lettres, ce ne sont que des points. Enfin, et surtout, en regardant le code source, on s'aperçoit qu'il y a beaucoup plus dans cet e-mail apparent. Il y a plein de "mots" écrit en blanc sur fond blanc. Ces mots sont totalement improbables et sont interprétés par les filtres bayésiens comme une étrange langue étrangère sur laquelle ils ne peuvent porter de jugement. Du coup, la distribution statistique de mots signifiants, qui pourrait conduire un filtre bayésien à considérer tel courrier comme du spam, chute et devient infinitésimal. Le spam a plus de chance de passer au travers.

Nota : cela ne fonctionne pas à tous les coups - sur mon système, ce courrier avait été classifié 2 fois "Spam", par SpamPal et par le filtre bayésiens de mon client de messagerie (Thunderbird).

Le même message, lorsque l'on rend tout ce qui est caché, visible, devient :

Page is loading

Image not showing? See message here.

Stop all announcements.

VjbMY0gUMuL/tmNiL1XTkxC/D.XUq.KLyNN/ sqq hiu, any, gqvyl . agyy mji nqvu, nkxuu, kugijm . gllrl rlkeuu ikucxj, ufi, pevx . ixvv nid tpknj, xwfbtq, nvzcke . hthgpc emukf vvvg, row, enb . pdmtc okcdo jbpuia, fvzc, naa . ndweg zle vhr, cbor, zrqe . pgdf gzwjx shadm, avh, xkcqjb . zfwpoc wivsr vjb, mpnmkw, jjc . sfjukh ajfx crjw, szl, pytbvv . ezmy vsrdd mkqe, ipm, hmi . bgkcd pjhc lzc, ciwru, xjwmv . vjdkkl npdca gkygp, kxabt, yelm . gillu xqlov qgwb, cqimp, qkaqpl . rulc hagxlw bna, qgdg, pxch . cyypbr outv zuiwo, jpkzxn, oegqop . mqk hvddoa qwkmk, xbhy, uhpapi . gcc mrgiw yylo, xaf, zizzh . gzyv oelray iih, gfhxc, zjzzrb . byh ycjni gju, tex, nfzk . gjqh hij jqkhu, udqa, mtj . qzgx qei wpmgav, jnb, jwpoo . cdkowd eapufx dojj, gaz, dsfzht . awv mtobxq tvpqz, aksg, rcnlj . uchvac mvy sodn, udnyd, smilqv . zmtb qcvyqs emnjz, edoe, lwwvh . tgnfa zqtw jrppfe, ffhkvl, hjr . qfx tfbkgr ekovag, ehim, uhbqq . hva ubkbcu wzmgpj, vkneu, soit . bdoygf jpw ldikr, abx, nmcinu . xqf vwwbd ltpzes, rmxr, uocgsk . nlvf tao eul, naqtux, iwdvr . yzm xbx gql, gflasc, usjp . vxnz evvghh jhvpxi, fqj, ilz . dkuw tkhqq nyl, bucy, bjk . zusjh onc jkgvt, mxm, jjo . nmtq eayatk nawrli, tdvtp, hceq . lfe velycn mwenvv, dzv, xoy . wcyou uysrcf hsiv, oimm, rnf . kwxe zeits uky, qphka, dolr . yiq icbh vjngef, aqm, iegu . jyuxp vana rer, bao, htwhlk . vopqs qpx muhbxr, bjtcl, oscmaq . ilnzd avwz iwmlte, wpx, ago . iaxyxf kfprh ogqycc, xgqtx, uavi . fjueiz sghlp bwk, apoyx, tvtnv . wsvhm pnth dulzw, kamb, kys . tntq pkawyc ovukaq, aohmot, cflw . hldxq krq tdy, zkrqi, erft . sxtfu mhjm dwp, gkb, cbrv . bovstq noztk hrqtpv, grasth, wyqn . hkucb srcl jsszok, fqofjj, gfnyu . fflk ocz paejue, ebfx, kibz . goo fwiqgq kpazre, lki, nppfb . icnqqd xzboft rixsbb, nonf, cwid . qgkhyn wne uxjmi, ejjjw, wdba . jgua ehmuj hnw, lhpt, wcxf . weexee kahahq bzzkny, afft, dvsiwq . dov xhjeis xvv, fkw, kcad . dbrnzj cxzlu xaopw, luks, inrmp . luzck oodl rivq, mhhzu, lnju . cgs soaw bkmhy, agxqqj, zksewh . sjsyd sswp zbf, zgg, dwyo . zbq xxwri pmm, gizwh, bqc . wjpvh rjh ngej, mzoany, vzffc . vesrn-

Que faire ?

Tenter de bloquer le spammeur ?
Analysons l'en-tête (en code source) du spam (avec l'outil de Spam-rbl)
Il suffit d'ouvrir le message en code source et de copier la totalité du code qui s'affiche puis de passer tout ceci à Spam-rbl qui s'occupe du reste. Voici la réponse de l'analyseur :

Received: (qmail 28601 invoked from network); 24 Jan 2004 12:46:52 -0000
Received: from c-24-7-243-210.client.comcast.net (HELO thepub.co.za) (24.7.243.210) by mrelay4-1.free.fr with SMTP; 24 Jan 2004 12:46:52 -0000
IP trouvée : 24.7.243.210 - cette IP est connue comme non-sécurisée. Les en-têtes suivantes ne sont pas fiables
Fin des champs Received
Résultat des courses :
24.7.243.210 (c-24-7-243-210.client.comcast.net) est le spammeur (IN) :
Cette IP n'est pas recensée dans notre blacklist.
24.7.243.210 --> c-24-7-243-210.client.comcast.net --> 24.7.243.210
c-24-7-243-210.client.comcast.net est validé
Abuse.net donne :abuse@comcast.net

Autrement dit, on pense que la machine du spammeur est la 24.7.243.210. Rien n'est moins sûr car comcast.net (le spammeur présumé d'après l'analyse de cette "en-tête") est connu pour utiliser d'autres machines que celle là pour ses spam, qui seraient

gateway-r.comcast.net - distribué sur 2 machines
204.127.198.26
216.148.227.126
gateway-s.comcast.net - également distribué sur 2 machines
63.240.76.26
204.127.202.26

D'autre part, cette adresse IP, 24.7.243.210, se trouve dans un immense intervalle d'adresses IPs appartenant à comcast.net qui va de 24.0.0.0 à 24.128.255.255 soit 8.388.608 machines ! Nous pourrions introduire cet intervalle dans un outil de blocage des adresses IPs mais il n'est pas raisonnable de bloquer un intervalle aussi vaste sans investigations approfondies (nous bloquerions probablement des dizaines de millions de sites Internet qui n'on rien à voir avec le spammeur.

Enfin, comcast.net n'est probablement pas le spammeur réel mais ses machines (ses serveurs de messagerie - ses serveur SMTP) sont squattées par un spammeurs et utilisées à son insu. Comcast, côté en bourse au NASDAQ, est le plus grand opérateur de télévision par câble au Etats Unis et le second plus grand fournisseur d'accès Internet.

Conclusion : on ne sait pas bloquer le spammeur.

Filtrer le message ?
On l'a vu. Ni les filtres classiques par règles, ni les filtres bayésiens n'y peuvent mais, encore que, dans le cas de cet exemple, les filtres bayésiens aient fonctionnés.
Bloquer le commanditaire
On en revient à mon leitmotiv - appuyer là où cela fait mal. Le spam, c'est pour de l'argent ! L'argent c'est vous faire faire "clic" sur un lien, dans le spam, qui vous dirrige vers un site de e-commerce. La seule information fiable que nous ayons, et pour cause, est donc celle du bénéficiaire du spam soit l'hyper lien codé dans le corps du spam (dans les deux liens de notre exemple, here et Stop, il s'agit de http://gtrrrez.us/alpha/

Il est futile de tenter de bloquer le domaine gtrrrez.us dans une liste hosts - cela va fonctionner une semaine, un mois, puis ce nom de domaine sera abandonné par le commanditaire qui fonctionne sur des opérations "coup de poing publicitaire" d'une semaine, d'un mois, et change ensuite de nom de domaine. Il en a probablement déjà des centaines enregistrés chez un registrar (autorité délégué par la gouvernance internationale du Web pour l'attribution (la vente) de noms de domaine) complice, voire il est lui-même un registrar dans une des sociétés de son conglomérat opaque.

Quelques recherches avec des outils à DNS permettent de savoir que ce site est hébergé sur la machine 61.143.182.146. Par contre il ne m'a pas été possible de savoir dans quel intervalle d'adresses IPs est cette machine. J'obtiens, dans le meilleure des cas, la totalité des machines d'Asie (intervalle APNIC 61.0.0.0 à 61.255.255.255 soit 16.777.126 machines !). Des NSLookUp des machines précédentes et suivantes (de 61.143.182.0 à 61.143.182.255) ne donnent rien.

Si le nom de domaine n'est pas une donnée stable dans le temps, l'adresse de la machine sur laquelle se trouve ce domaine est relativement plus stable. En bloquant toute communication avec la machine 61.143.182.146 (règles qui se paramètre aisément dans votre pare-feu (firewall)) on bloque le commanditaire, ses autres sites hébergés sur la même machine, ses futurs projets de spam avec des domaines hébergés sur cette même machine et donc on bloque son économie financière. En appuyant là ou ça fait mal, on bloque le système car le commanditaire ne passera plus de commandes d'opérations de spam à des spammeurs qui, eux aussi, dans la foulée, s'écroulent. Cette démarche a un effet immédiat et définitif sur le commanditaire et un effet boomerang légèrement différé sur le principe même du spam.

Cette démarche est agressive et consiste à créer un climat de peur chez ces e-commerçants mafieux. L'internaute n'est plus une victime, il est une arme.

Nota : dans le cas présent il est pratiquement certains que vous n'avez rien à faire avec le monde asiatique et leurs sites, mafieux ou non. Il est donc utile de bloquer tout l'intervalle Asie, ce que permettent déjà certains utilitaires anti-spam comme SpamPal. Ajoutez une règle bloquant 61.0.0.0 à 61.255.255.255 dans votre pare-feu (firewall).

Alors, qu'elle est la solution ?
Seules les solutions anti-spam à base de test de Turing, lorsqu'elles sont intelligemment mises en oeuvre, sont la solution et MailInBlack en est la meilleure implémentation (et c'est en français).

Incapacité des filtres Bayésiens

Limites et incapacités des filtres Bayésiens

Nouvelle adresse du site Assiste.com depuis le 22 octobre 2012 : http://assiste.com