Encodage et décodage de et vers echappement% (escape code)

Encodage et décodage de UTF8 vers échappement%

   
En savoir plus :  Retourner à la page précédente   Imprimer cette page   

FAQ Microsoft Windows
 
 
Ce formulaire vous permet d'encoder un texte en échappement% et inversement.


Dans cette fenêtre, le texte en clair


Dans cette fenêtre, le texte encodé



Utilisation :
  • Saisir un texte "normal" dans la case du haut pour en obtenir le codage en "échappement %" dans la case du bas
  • Saisir un texte encodé en "échappement%" dans la case du bas pour en obtenir la version décodée dans la case du haut.

Ceci est généralement utilisé pour le passage d'arguments dans les URI et est utilisé pour le cryptage des URLs par les spammeurs et les sites crapuleux. Les autres raisons de son utilisation sont :
  • la protection des codes sources des pages html, qui deviennent difficilement lisibles à ceux qui cherchent à contourner vos protections d'accès à certaines zones, usurper les paiements etc. ...
  • la protection contre les robots sans capacité de décodage JavaScript, écumant le Net à la recherche d'adresses e-mail ou de contenu etc. ...
Autres ressources :

Escape Code (Echappement %) - De quoi s'agit-il ?

Vous avez déjà vu des URLs avec cette tête ?

http://%61%73%73%69%73%74%65%2e%66%72%65%65%2e%66%72%2f%70%2f%63
%6f%64%65%5f%64%65%63%6f%64%65%2f%64%65%63%6f%64%65%5f%65%63%68
%61%70%70%5f%76%65%72%73%5f%75%74%66%38%2e%70%68%70


L'URL utilise un codage légitime, mais inhabituel, utilisant des "séquences d'escapes" et appelé "échappement %".

Avec de tels liens, vous ne savez pas où vous allez atterrir et, comme l'usage d'un tel encodage est complètement inhabituel, on est persuadé qu'il y a quelque chose de caché, à commencer par le nom de domaine contenu dans l'URL et tout le contenu de l'URL. Cette méthode est utilisée par les sites crapuleux, les sites bénéficiaires de spam commerciaux etc. ... Le formulaire suivant permet de décoder ces URLs. En fait, il permet de décoder n'importe quelle chaîne de caractères codée avec des séquences d'escape.

Le codage des URLs (des liens hypertexte) répond à une syntaxe qui a été voulue, dès le départ, ouverte aux futurs protocoles possibles et imaginables et être utilisable par tous les systèmes déjà existants.
  • Une URL débute toujours par un champ qui définit le schéma de nommage dans lequel l'objet référencé se situe. Par convention ce champ contient donc le nom du protocole, par exemple http, https, ftp, gopher etc. ...
  • Un séparateur (un délimiteur), le caractère ":"
  • La suite de l'URL, suite qui dépend directement de la valeur du premier champ
C'est donc l'usage de la bonne vieille table de caractères normalisée, la table ASCII (American Standard Code for Information Interchange) qui a été retenu. Cette table est constituée de tous les caractères imprimables (que l'on voit et trouve donc sur un clavier) mais aussi de certains autres, non imprimables et non visibles sur un clavier. Ils sont, traditionnellement, utilisés, par exemple pour donner des ordres de format aux imprimantes "caractère" (sauts de page, sauts de ligne, tabulation etc. ...). Leur utilisation est nécessaire car certains services utilisent ces caractères spéciaux comme éléments du protocole (gopher, par exemple, utilise le caractère Tab (%09) comme séparateur de champ).

  0 1 2 3 4 5 6 7 8 9 A B C D E F
0 NUL SOH STX ETX EOT ENQ ACK BEL BS TAB LF VT FF CR SO SI
1 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
2 espace ! " # $ % & ' ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ _
6 ` a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~  
8   ƒ ˆ Š Œ   Ž  
9   ˜ š œ   ž Ÿ
A   ¡ ¢ £   ¥ | § ¨ © ª « ¬ ¯ ® ¯
B ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D Ð Ñ Ò Ó Ô Õ Ö   Ø Ù Ú Û Ü Ý Þ ß
E à á â ã ä å æ ç è é ê ë ì í î ï
F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

Le caractère "TAB", par exemple, est, dans cette table, à l'intersection de la ligne 0 et de la colonne 9. Son code ASCII est donc 09.

Ceci est, bien entendu, fonctionnel sur toute la table ASCII. Par exemple "Papa" pourrait donc s'écrire "50 61 70 61", mais il manque quelque chose :

Pour distinguer 50 61 70 61 d'un bête nombre, il a été convenu d'un code dit d'"échappement" qui a été choisi pour être le caractère "%" d'où le nom d'"échappement %". Lorsque ce code est rencontré, les 2 caractères qui le suivent sont le code ASCII d'un caractère. (Conséquence syntaxique : le caractère % est "interdit" en écriture directe et ne peut s'écrire que %25).

Papa pourrait donc s'écrire %50 %61 %70 %61, mais il manque encore quelque chose que la règle syntaxique impose :

Le caractère "espace" n'est pas admis. Il doit être remplacé, lorsqu'il est requis, par %20 (le caractère "espace" dans la case ligne 2 colonne 0). S'il n'est pas requis, il ne doit pas y en avoir.

Donc, finalement, Papa s'écrit %50%61%70%61. Cette manière d'écrire les URLs est donc parfaitement légitime bien que totalement "exotique" et consiste à remplacer chaque caractère (d'une URL, d'une chaîne de caractères quelconque...) par son équivalent dans un autre alphabet appelé "échappement %". Les sites crapuleux et les spammeurs sont les grands utilisateurs de cette méthode de camouflage. Nous pouvons d'ailleurs leur rendre la monnaie de leur pièce et crypter nos adresses e-mail pour éviter leurs robots en utilisant les mêmes outils qu'eux !).


Windows, Internet et le codage de certains caractères

Le partage d'informations, sous forme de documents numériques, pose un problème né de la mondialisation des échanges grace (ou à cause) de l'émergence de l'Internet. Il faut faire en sorte que le contenu d'un document numérique puisse être reconnu de manière identique par les systèmes d'exploitation et les applications utilisant des alphabets (des jeux de caractères) totalement différents (oriental, occidental etc. ...).

Des codes ont été mis au point pour s'assurer qu'un symbole, dans un système, s'affiche et s'imprime identiquement dans un autre système. Ces codes se sont compléxifiés et étendus avec le temps afin de reconnaître de plus en plus de caractères spéciaux propres à des langues de plus en plus nombreuses. Ces codes normalisés ont commencés avec ASCII, EBCDIC, ISO-2022... pour aboutir à Unicode). Evidemment Microsoft a tenté d'imposer un code exotique qui est invalide et ne sera jamais normalisé.

Principaux codes utilisés sur l'Internet.
  • Unicode (norme de fait - sur-ensemble de ISO/CEI 10646 à laquelle elle correspond caractère par caractère) :
    C'est le standard de codage des caractères sur lequel reposent tous les espoirs actuels. Conçu par le consortium Unicode, Unicode est une norme informatique qui vise à donner à tout caractère de n'importe quel système d'écriture de langue un nom et un identifiant numérique, et ce de manière unifiée, quelle que soit la plate-forme informatique ou le logiciel . Il fournit donc une méthode universelle de codage. La première publication sur Unicode remonte à 1991. Il est au cœur de tous les systèmes modernes (Windows, Mac OS, UNIX…), mais n'est pas forcément reconnu/utilisé par toutes les applications. De nouveaux caractères s'y ajoutent encore, par exemple avec le traitement numérique de systèmes (langues et signes) disparus.

  • UTF-8 (RFC 3629) :
    UTF-8 est un codage dérivé de Unicode (UTF = Unicode Transformation Format). Au lieu d'encoder les caractères sur 2 octets, ils le sont de manière variable sur 1 à 4 octets. C'est le codage de base de XML et c'est le plus courant aujourd'hui.

  • ISO-8859-1 (Latin-1; ISO/CEI 8859-1; ISO/IEC 8859-1) :
    Egalement connue sous le nom de Latin-1. Une page HTML déclare utiliser cet encodage avec la balise :
    <meta http-equiv="content-type" content="text/html;charset=iso-8859-1">
    Cette norme code 191 des caractères de l'alphabet latin (plus simplement, cette norme s'est trop rapidement employée à ajouter des caractères accentués au code US-ASCII (et passe complètement à côté des caractères français œ, Œ et Ÿ (et de plusieurs autres en allemand, estonien et finois) qui n'ont pas été inclus car l'employeur de l'un des rédacteurs de la norme, un grand fabricant d'imprimantes, n'avait pas inclus ces caractères dans ses imprimantes). En réalité, ce n'est que le premier de 15 codages (de ISO-8859-1 à ISO-8859-15), chacun englobant tout (ou, parfois, partie) des caractères utilisés dans une région ou une forme de langue : Europe de l'Ouest, du Nord, du Sud, et Centrale, Arabe, Grec, Hébreu, Celte, Thaï.

    Notoirement créé rapidement, ISO-8859-1 est très diffusé mais pas idéal. Il faut cependant compter avec lui car il s'agit du codage standard d'UNIX et de nombreux logiciels (dont certains navigateurs et logiciels de courrier), et Unicode en est une extension.
    Les normes ISO-8859-xx ne sont pour autant pas complètes (notamment en ce qui concerne l'extrême-orient), et il est préférable de nos jours de se référer à Unicode ou UTF-8.

    La maintenance du code iso-8859-1 est abandonnée depuis juin 2004 au profit de Unicode (et UTF-8 / UTF-16).


Caractères Microsoft Windows illégaux et leurs équivalents normalisés

codages
invalides
utilisés par
Windows
Entités
"Caractère"
normalisées

Pas reconnues
par Netscape 4
Références
numériques normalisées
Résultat
affiché
Commentaire
&#128; &euro; &#8364; Symbole monétaire de l'Euro (1)
&#129;        
&#130; &sbquo; &#8218; Apostrophe anglaise basse (1) (2) (3)
&#131; &fnof; &#402; ƒ Florin, forte musical (1) (2)
&#132; &bdquo; &#8222; Guillemet anglais bas (1) (2)
&#133; &hellip; &#8230; Points de suspension (n'est pas une suite de 3 points mais un symbole unique) (1)
&#134; &dagger; &#8224; Obèle, dague, croix (appel de notes de bas de page) (1)
&#135; &Dagger; &#8225; Double obèle, double croix (1)
&#136; &circ; &#710; ˆ Accent circonflexe (1)
&#137; &permil; &#8240; Pour mille (1)
&#138; &Scaron; &#352; Š S majuscule avec hatchek (háček, caron, antiflexe - accent circonflexe inversé) - langue tchèque (1) (ISO-8859-2 Unicode)
&#139; &lsaquo; &#8249; Guillemet simple allemand et suisse, parenthèse angulaire ouvrante (1) (2) (3)
&#140; &OElig; &#338; Œ Ligature o-e majuscule (1) (2) (ignorée des normes ISO Latin-1 (ISO 8859-1) et Unicode (ISO 10646))
&#141;        
&#142;   &#381; Ž Z majuscule avec hatchek (háček, caron, antiflexe - accent circonflexe inversé) - langue tchèque (1) (ISO-8859-2 Unicode)
&#143;        
&#144;        
&#145; &lsquo; &#8216; Guillemet anglais simple ouvrant (1) (2) (3)
&#146; &rsquo; &#8217; Guillemet anglais simple fermant (1) (2) (3)
&#147; &ldquo; &#8220; Guillemets anglais doubles ouvrants (1) (2) (3)
&#148; &rdquo; &#8221; Guillemets anglais doubles fermants (1) (2) (3)
&#149; &bull; &#8226; Boulet (type "listes à puces") (1) (2)
&#150; &ndash; &#8211; Tiret demi-cadratin ou tiret moyen « – » (caractère Unicode U+2013, LaTeX --, clavier Mac Alt+Maj+-)
(Espaces typographiques). Voir The Trouble With EM 'n EN
&#151; &mdash; &#8212; Tiret cadratin ou tiret long « — » (caractère Unicode U+2014, LaTeX ---, clavier Mac Alt+-)
(Espaces typographiques). Voir The Trouble With EM 'n EN
&#152; &tilde; &#732; ˜ Tilde : signe diacritique utilisé en Castillan (ñ), en Portugais (ã, õ), en Guarani (ã, ñ, õ) et en Breton (añ). (1)
&#153; &trade; &#8482; TM - Trade Mark (Marque Dépossée)
&#154; &scaron; &#353; š s minuscule avec hatchek (háček, caron, antiflexe - accent circonflexe inversé) - langue tchèque (1) (ISO-8859-2 Unicode)
&#155; &rsaquo; &#8250; guillemet simple allemand et suisse, parenthhse angulaire fermante (1) (2) (3)
&#156; &oelig; &#339; œ Ligature o-e minscule (1) (2) (ignorée des normes ISO Latin-1 (ISO 8859-1) et Unicode (ISO 10646))
&#157;        
&#158;   &#382; ž z minuscule avec hatchek (háček, caron, antiflexe - accent circonflexe inversé) - langue tchèque (1) (ISO-8859-2 Unicode)
&#159; &Yuml; &#376; Ÿ Y majuscule avec trema (dans quelques noms propres. (Ignorée des normes ISO Latin-1 (ISO 8859-1) et Unicode (ISO 10646))





Historique des révisions de ce document :

02.08.1999 Initial
13.03.2005 Révision
11.12.2007 Complètement nouveau et Up V4
 
   
Rédigé en écoutant :
Music