On a vu que la fréquence
d'apparition des lettres dans les textes français est
EASITNRUOLDCMPVQFGHBJXYZKW
On peut alors assigner une
direction à chacune de ces lettres, et dans ce cas, un texte (considéré ici
comme une suite ordonnée de mots) n'est alors rien d'autre qu'une suite de
petits segments orientés.
Comment assigner à chaque
lettre une direction ? D'abord, il paraît logique de partager un tour complet
en 26 directions possibles (donc 13,846° par lettre).
J'ai choisi de classer les
lettres par fréquences décroissantes (EASITN etc.) et de commencer par le
"E", qui part horizontalement vers la droite, ensuite, le
"A" part vers la droite, mais aussi 13,846° vers le haut, le
"S" lui part aussi vers la droite, mais aussi de 13,846° vers le bas.
On continue ainsi en alternant : le "I" part à droite, mais est
décalé de 27,692° vers le haut. Le "T" de 27,692° vers le bas et
ainsi de suite.
On sent bien que la direction
générale d'un texte sera vers la droite, car plus une lettre est fréquente,
plus elle part horizontalement et vers la droite.
Pour chaque texte, j'ai aussi
calculé le point d'arrivée théorique, c'est simplement la moyenne pondérée des
directions de chaque lettre, multipliée par la longueur du texte. Ce point
d'arrivée théorique est matérialisé par un gros point coloré.
Un texte qui serait
parfaitement représentatif de la fréquence des lettres arriverait exactement
sur le point théorique.
En pratique, à cause de la
loi des grands nombres, plus un texte est long, et plus il s'approchera de sa
moyenne théorique.
(on parle d'un texte
raisonnable, et sans contrainte biscornue ;o)
Bon, et bien voici ce que ça
donne :
D'abord trois courtes fables
de
- Le renard et la cigogne (en
rouge)
- Le chêne et le roseau (en
vert)
- Le rat des villes et le rat
des champs (en bleu)
Ensuite, trois textes plus
longs, tirés des contes de la bécasse, de Maupassant.
- Farce normande (en rouge)
- La folle (en vert)
- La peur (en bleu)
Le plus long de ces trois
textes comporte environ 10000 lettres.
On constate qu'un texte
"tire vers le haut", un autre vers le bas, et que le troisième est
très équilibré.
ERIC ANGELINI a
eu l'idée de comparer des textes de langues différentes, et d'assigner une
direction "neutre" à chaque lettre.
On choisit donc de placer les
lettres dans leur ordre naturel (ABCD...) en partant du A, et en tournant dans
le sens inverse des aiguilles d'une montre. Le A se trouve à 15h , le B est à
14h30 environ, le C est à peu près à 14 h, et ainsi de suite jusqu'au Z qui est
proche de 15h30.
Voici les trajectoires de la
nouvelle de Maupassant "une farce normande", et de sa traduction
anglaise "a Normandy joke".
Il est curieux que ces deux
trajets soient perpendiculaires !
Contrairement à ce que l'on
pourrait supposer au vu de ces deux "voyages", le trajet en français
est plus long que la traduction en anglais.
La trajectoire en français
est simplement beaucoup plus tortueuse.
Ci-dessous un zoom à la même
échelle de la zone la plus torturée de chacune des versions, soit aux environs du point (-70 ; -50) pour
le français, et (-70 ; 170) pour l'anglais.