On a vu que la fréquence d'apparition des lettres dans les textes français est

EASITNRUOLDCMPVQFGHBJXYZKW

 

On peut alors assigner une direction à chacune de ces lettres, et dans ce cas, un texte (considéré ici comme une suite ordonnée de mots) n'est alors rien d'autre qu'une suite de petits segments orientés.

 

Comment assigner à chaque lettre une direction ? D'abord, il paraît logique de partager un tour complet en 26 directions possibles (donc 13,846° par lettre).

 

J'ai choisi de classer les lettres par fréquences décroissantes (EASITN etc.) et de commencer par le "E", qui part horizontalement vers la droite, ensuite, le "A" part vers la droite, mais aussi 13,846° vers le haut, le "S" lui part aussi vers la droite, mais aussi de 13,846° vers le bas. On continue ainsi en alternant : le "I" part à droite, mais est décalé de 27,692° vers le haut. Le "T" de 27,692° vers le bas et ainsi de suite.

 

On sent bien que la direction générale d'un texte sera vers la droite, car plus une lettre est fréquente, plus elle part horizontalement et vers la droite.

 

Pour chaque texte, j'ai aussi calculé le point d'arrivée théorique, c'est simplement la moyenne pondérée des directions de chaque lettre, multipliée par la longueur du texte. Ce point d'arrivée théorique est matérialisé par un gros point coloré.

 

 

 

Un texte qui serait parfaitement représentatif de la fréquence des lettres arriverait exactement sur le point théorique.

En pratique, à cause de la loi des grands nombres, plus un texte est long, et plus il s'approchera de sa moyenne théorique.

(on parle d'un texte raisonnable, et sans contrainte biscornue ;o)

 

 

 

Bon, et bien voici ce que ça donne :

 

D'abord trois courtes fables de La Fontaine :

 

- Le renard et la cigogne (en rouge)

- Le chêne et le roseau (en vert)

- Le rat des villes et le rat des champs (en bleu)

 

 

 

 

 

 

Ensuite, trois textes plus longs, tirés des contes de la bécasse, de Maupassant.

 

 

- Farce normande (en rouge)

- La folle (en vert)

- La peur (en bleu)

 

Le plus long de ces trois textes comporte environ 10000 lettres.

 

On constate qu'un texte "tire vers le haut", un autre vers le bas, et que le troisième est très équilibré.

 

 

 

ERIC ANGELINI a eu l'idée de comparer des textes de langues différentes, et d'assigner une direction "neutre" à chaque lettre.

On choisit donc de placer les lettres dans leur ordre naturel (ABCD...) en partant du A, et en tournant dans le sens inverse des aiguilles d'une montre. Le A se trouve à 15h , le B est à 14h30 environ, le C est à peu près à 14 h, et ainsi de suite jusqu'au Z qui est proche de 15h30.

 

Voici les trajectoires de la nouvelle de Maupassant "une farce normande", et de sa traduction anglaise "a Normandy joke".

L'ordre de fréquence des lettres en anglais est  E T A O I N S R H L D C U M F P G W Y B V K X J Q Z

 

 

 

Il est curieux que ces deux trajets soient perpendiculaires !

 

 

Contrairement à ce que l'on pourrait supposer au vu de ces deux "voyages", le trajet en français est plus long que la traduction en anglais.

La trajectoire en français est simplement beaucoup plus tortueuse.

 

Ci-dessous un zoom à la même échelle de la zone la plus torturée de chacune des versions,  soit aux environs du point (-70 ; -50) pour le français, et (-70 ; 170) pour l'anglais.