Spamdexing

Spamdexing - Web Spammers - Advertisers - Fournisseurs de publicités

   
En savoir plus :  Retourner à la page précédente   Imprimer cette page   

FAQ Microsoft Windows

Cybersquatting
CyberSquatting
Anti-Cybersquatting Consumer Protection Act (ACPA)
CorporateSquatting
Domain Kiting
Domain Parking
Domain Tasting
Fraudulent Online Identity Sanctions Act (FOISA)
Noms de domaines et contrefaçons de marques
Parking
Revente de noms de domaines
Spamdexing - une forme de cybersquatting
Truth In Domain Names Act (TDNA)
Type-in traffic
TypoSquatting


Mots clé
search engine optimization (SEO)
Spammer, Spammers, Spamdexing,
Spam links, top search results,
Search Spam, Web Spam,
Search Spammers, Web Spammers,
Redirection and Cloaking,
Advertisement Syndication
Measurement, Security, Experimentation,
link farms, stuffing keywords,
comment spamming
robot, bot, crawler, spider

Une étude de Microsoft sur le Spamdexing
Référencer une page en flash sans cloaking
Petit rappel des consignes anti-spam de Google
Spamdexing : Google hausse le ton !

Tests de Turing
Challenge Message et autres Captcha
 
 
Assiste.com a pour vocation la sécurité des systèmes d'information et la protection de la vie privée sur l'Internet. A ce titre, il convient de vous mettre en garde par l'information et de vous protéger par des outils contre une technique de référencement des sites, dans les moteurs de recherches, qui peut vous conduire vers des pièges.

Le Spamdexing consiste, pour un éditeur d'un site Internet, à "occuper le terrain" (squatter le terrain) de l'Internet - à "améliorer" le classement de son site dans les moteurs de recherches (dans Google) afin que vous tombiez sur son site lors de vos recherches, donc que son site apparaisse en premier (ou dans les 10 premiers) dans "Le moteur de recherches" : Google.

Ces techniques d'optimisation (Search Engine Optimization (SEO)) servent à promouvoir des sites qui ne possèdent aucune qualité et n'offrent aucun intérêt. Normalement, seule la qualité du contenu d'un site Web doit servir à son classement. Malheureusement il est impossible à des humains de juger et classer tous les sites du monde gratuitement - des milliers de nouveaux sites naissent chaque jour et des millions sont mis à jour chaque minute. Seul le projet Open Directory - Dmoz est une tentative de classement à la main, par des milliers de bénévoles, de certains sites (ceux qui en font la demande - gratuitement) par catégorie et ordre alphabétique dans la catégorie (sans classement par pertinance - site cool). Les sites peuvent être refusés au référencement et, en tout état de cause, il faut parfois plusieurs mois avant d'y être référencé.

Les techniques de Spamdexing :
On y trouve les fermes de liens, le bourrage de mots clés, le spam de forums de discussion et la mascarade


Pourquoi Google ?
Parce que c'est le plus gros, de très loin, directement ou indirectement (Google fourni les résultats de nombreux autres moteurs de recherches) et parce que Google est l'inventeur de cette technique qui permet de vous répondre, lorsque vous faites une recherche, d'une manière que Google croit "intelligente" : le "PageRank". Google vous propose une liste de sites parlant du sujet que vous recherchez mais Google ne vous propose pas cette liste "en vrac", il la classe selon un indice de pertinence et le site qui apparaît en premier lui semble le plus pertinent, puis le second un peu moins etc. ... Tout le problème du Spamdexing vient de là !

Les autres moteurs de recherches sont marginaux et ne comptent pas.

Spamdexing et pertinence
Pour qu'un site soit "pertinent" aux yeux de Google sur un sujet donné, par exemple "sécurité informatique" ou "énergies renouvelables" etc. ... il faut que de nombreux autres sites pointent (aient un lien) à propos de ce sujet vers le site. Google pense alors que, puisque le site est "populaire" c'est une bonne proposition de consultation à faire à celui qui fait une recherche. Donc les webmasters (les auteurs de sites Internet), par passion pour les gamins qui écrivent leur petit site sur tel ou tel jeux, mais par crapuleries pour les véritables gangs maffieux qui nous intéressent, ont développés des techniques pour populariser leurs sites ou portail de e-commerce (oui, e-commerce car, s'il n'y a pas d'argent au bout, cela n'a pas d'intérêt - sauf, peut-être, l'orgueil qui motive certains).

Nota:
La pertinence est pondérée par la popularité du site qui pointe vers un autre. Si Microsoft.com pointe vers Assiste.com, cela a de l'importance car le domaine Microsoft.com est extrêmement populaire mais si Assiste.com pointe vers Microsoft.com, cela est beaucoup moins important.

  • Fermes de liens - Farming (Les fermes d'élevage - Link farms)
    Le Farming (les fermes de liens) est une technique de Search Engine Optimization (SEO). Des centaines ou des milliers de sites s'inscrivent dans un page Internet, chacun avec un lien pointant vers son site. Cette page est mise en ligne sur chacun des sites de la ferme d'élevage (au sens propre comme au sens figuré). Si 1000 sites sont là-dedans, chaque site a 999 autres sites qui pointent vers lui. D'un seul coup ils sont "populaires" au sens de Google. Google s'en est aperçu et a réagit très violemment : tous les sites de la ferme sont blacklistés. C'était vers les années 2000 ou 2001 : les fermes ont immédiatement disparues du Net.


  • Liens réciproques - Réciprocité
    Une forme minimaliste (et admise) de spamdexing très proche du Farming (voir ci-dessus). Un webmaster en invite un autre à pointer vers son site et, en échange, en fait de même. L'intérêt pour ce type de liens croisés diminuant dans les moteurs de recherches, un technique de remplacement à 3 voies tente de les remplacer : le site A pointe vers B qui pointe vers C qui pointe vers A.


  • Bourrage de mots clé (Stuffing keywords)
    Technique de Search Engine Optimization (SEO) mal vue de Spamdexing consistant à bourrer les pages Web de mots clés, dans les méta tags ou dans le corps des pages.

    Les méta tags sont des zones invisibles aux internautes, situées dans les entêtes techniques des pages (le header). L'un des méta tag les plus employés s'appelle tout simplement "keywords" (mots-clés). Le bourrage de ce tag a tellement été employé que la plupart des moteurs de recherche ne le lisent plus, en particulier Google qui, depuis des années, ignore complètement tous les tags des headers. Voir ce tableau comparatif des moteurs de recherches en termes de référencement.

    Une autre technique fort employée consiste à bourrer le corps de la page de mots-clés écrits en blanc sur fond blanc (ou noir sur fond noir etc. ..., enfin, invisibles) ou dans des layers cachés (boîtes flottantes cachées - hidden ou en position CSS "Z" (derrière une image donc invisible aux visiteurs mais visible aux robots) ou dans un layer affiché mais à une position repoussée très loin à droite ou en bas de la page (plusieurs milliers de pixels plus loin)) etc. ... L'écriture ton sur ton (ou même avec des variantes de tons infimes) est automatiquement détectée par Google (et les autres moteurs de recherches) et le "pagerank" du site est automatiquement diminué voir le site est blacklisté pour plusieurs mois. Depuis 2005 environ, les autres techniques sont aussi détectées et le blacklistage automatique est la sanction.

    Une autre technique encore consiste à utiliser la balise "NoScript". Celle-ci est utilisée pour afficher un texte de remplacement lorsqu'une fonction, normalement exécutée par un script, ne peut pas l'être car le navigateur du visiteur ne supporte pas les scripts (technologie non supportée ou désactivée). Bien que la balise soit légitime, le bourrage de mots-clés ici est assimilé au bourrage dans la balise KeyWords et les moteurs de recherches pourraient réagir très violemment.

    En tout état de cause, un mot ou une expression apparaissant trop souvent dans une page devient suspect et si son pourcentage d'occurences par rapport à la somme des mots visibles de la page dépasse un seuil fixé par les moteurs, cela est considéré comme du spamdexing (ce seuil peut osciller, en fonction de la longueur de la page, entre 4% et 8%).


  • Spam des forums de discussion (Comment Spamming)
    Les forums de discussion et les blogs tentent de se protéger du spam des fils de discussion par des Tests de Turing et des Challenge Message et autres Captcha. Le Comment Spamming est une Technique de Search Engine Optimization (SEO) consistant à bourrer les forums de discussion (et les groupes de discussion Usenet et les Blogs) de liens et de mots clés vers un site. Le simple fait d'ajouter un lien vers son propre site dans sa signature sur un forum peut être assimilé à du "Comment Spamming" et certains administrateurs de forums interdisent cela. Le mot "Spam" est né d'une insertion publicitaire dans un groupe Usenet - lire l'historique du terme "Spam".

    Comment font les gangsters du Net :
    Des robots parcours le Net sans arrêt à la recherche de forums de discussion.
    Ces robots sont assez faciles à acheter.
    Les forums sont assez faciles à trouver et ces robots capturent toutes ces adresses automatiquement pour se constituer des listes de forums. Par exemple, cliquez sur la requête google inurl:viewtopic et vous obtenez en un quart de seconde 36 millions (oui, 36.100.000 exactement, le 22 mars 2007) liens vers des discussions sur des forums.
    Ces robots s'inscrivent automatiquement sur ces millions de forums, sous un nom quelconque ou généré automatiquement, et mettent, dans leur fiche de profil, l'adresse de leur site crapuleux.
    Peu importe qu'il y ait ou non un système de validation par e-mail ou à la main par l'administrateur du forum : même si le membre du forum (ou l'administrateur) ne valide pas son inscription, sa fiche de profil est créée (elle est simplement en attente de validation) et sera lue par Google.
    Peu importe qu'il y ait ou non un système de protection par Test de Turing (captcha) - tous les Test de Turing utilisés dans les forums sont cassés automatiquement par les robots.
    La validation est automatisée par les robots, après quoi ils peuvent "poster" dans les forums et les bourrer de choses comme :



    Ces noms de domaines sont relevés tous les jours et introduits dans des listes noires de blocage. Ces listes sont offertes gratuitement et utilisables sur tous les systèmes. Voir Hosts.


  • Mascarade (Cloaking)
    Cette technique n'est pas à la portée de tout le monde. Elle nécessite de savoir écrire des sites Internet utilisant des langages côté serveurs (PHP, ASP, CGI, SSI...). Lorsque le serveur sur lequel est hébergé un site reçoit une requête, il sait qui fait cette requête car la requête se présente sous la forme suivante :
    GET: /index.html
    HOST: assiste.com.free.fr
    USER_AGENT=Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
    REFERER=http://assiste.forum.free.fr
    REMOTE_ADDR=195.13.17.178

    GET contient le nom de la page web que vous voulez voir (ici index.html)
    HOST est le nom du site sur lequel se trouve la page recherchée (ici assiste.com.free.fr)
    USER_AGENT est la "signature" de votre navigateur (ici Internet Explorer version 6.0 utilisé sous windows 2000 Pro)
    REFERER est le site d'où vous venez (ici assiste.forum.free.fr)
    REMOTE_ADDR est votre adresse IP
    Le cloaking consiste à analyser la signature du navigateur. Celle-ci peut être masquée ou usurpée mais les moteurs de recherches ne jouent pas à cela et signent légitimement leurs robots (crawler, spider) utilisés pour indexer les sites. Donc il est possible de savoir si le visiteur est un robot d'un moteur de recherche, par exemple lorsque le User-Agent est dans cette liste :
    En utilisant un langage côté serveur, le webmaster écrit une fonction simple qui fera ceci :

    Si le visiteur est un robot d'indexation
      génération pour le robot d'une page spécifique optimisée (courte, beaucoup de mots clé etc. ...)
    sinon,
      génération de la page normale à présenter au visiteur "normal".

    Avec cette technique, il est possible d'optimiser le poids des mots-clés dans la page (% de mots-clés par rapport au nombre total de mots de la page) mais il est aussi possible de complètement tromper les robots et de leur faire croire que le site est un site de recettes de cuisines alors que le visiteur verra des pages sur le viagra ou pornographiques etc. ...

    Lorsque le cloaking est découvert (dénonciation, robots utilisant un User-Agent le faisant passer pour un navigateur normal et comparaison du résultat obtenu avec le résultat obtenu par le robot signé), le site est blacklisté et il mettra des mois à en sortir.

    Une utilisation légitime et non perverse du cloaking consiste à analyser l'adresse IP et, en fonction de sa provenance géographique (pays d'origine) :
    • afficher la page dans une langue ou dans une autre
    • utiliser un serveur plus proche, géographiquement, du visiteur, afin d'améliorer la vitesse
    • délivrer des publicités locales
    • Etc. ...


Nouvelle adresse du site Assiste.com depuis le 22 octobre 2012 : http://assiste.com Nouvelle adresse du site Assiste.com depuis le 22 octobre 2012 : http://assiste.com

Nouvelle adresse du site Assiste.com depuis le 22 octobre 2012 : http://assiste.com






Historique des révisions de ce document :

22.03.2007
 
   
Rédigé en écoutant :
Music