Pour étudier la fréquence d'apparition des lettres en français dans la littérature, j'ai téléchargé un grand nombre de textes (beaucoup de romans , totalisant plus de 25 millions de lettres), tous au format ASCII, pour éviter le problème des accents.

Toujours à l'aide d'AJL, j'ai ensuite extrait les fréquences d'apparition de chacune des lettres.

 

Dès que le nombre total de lettres a atteint environ 2000000, l'ordre d'apparition des lettres n'a pratiquement plus changé,

Je pense donc qu'avec cette manière de compter  (a = â = à = ä   etc. ), l'ordre ci-dessous est "le bon"

 

EASITNRUOLDCMPVQFGHBJXYZKW

 

 

 

 

On peut alors classer les mots selon leurs "valeurs de fréquence", en partant des mots composés des lettres les plus courantes (par exemple AISEE=2+4+3+1+1=11, somme des rangs des lettres) , aux mots composés de lettres rares (par exemple JAZZY=21+2+24+24+23=94)

 

Pour les mots de 6 lettre, on va ainsi de SASSEE (13) à BOMBYX (107)  , et pour les mots de 8 lettres de ASSENEES (20)  à ZUGZWANG (126).

Pour les mots de 14 lettres, nous avons des valeurs qui s'échelonnent entre 46 pour ASSASSINASSENT et 178 pour HYPOCYCLOIDAUX.

 

On peut alors se faire une idée plus précise de la valeur de fréquence des mots en les représentant graphiquement.

 

 

 

Pour les mots de 6 lettres, on obtient l'histogramme ci-dessous  

En abscisse, on trouve les valeurs de fréquences, et en ordonnée, le nombre de mots ayant une certaine valeur de fréquence.

Tout à gauche, on a donc SASSEE (somme cumulée = 13) et tout à droite BOMBYX (somme = 107)

 

 

 

 

 

Et pour les mots de 10 lettres :

 

 

On voit que ces valeurs suivent à peu près une loi normale.

 

Si les résultats exhaustifs vous intéressent, n'hésitez pas à m'envoyer un mail.