Compressions sans perte : Codage statistique

Les méthodes statistiques, en particulier l’algorithme de Huffman, ont été très employées jusqu’en 78. C’est alors que sont apparues les méthodes de type dictionnaire .

Dans l’algorithme RLE, nous avons commencé à compresser en tenant compte des répétitions d’octets mais dans les images que nous manipulons ce sont souvent des séquences d’octets, des motifs qui se répètent. Pourquoi ne pas utiliser ces répétitions pour compresser les données ?

Prenons un petit exemple pour faire comprendre l’intérêt de la méthode.

Combien la langue française comporte-t-elle de mots de 10 lettres ? environ 10 000.
Combien peut-on faire de mots différents de 10 lettres avec les 26 lettres de l’alphabet ?

26^10, ce qui fait tout de même 140 000 milliards de mots. Autrement dit, les mots de 10 lettres qui ont un sens représentent 1 quatorze milliardième de l’ensemble des mots de 10 lettres.

Il est donc très judicieux si l’on veut coder efficacement ces mots, d’en dresser une liste et de les numéroter, on dit plutôt de les indexer.

Pour me contacter : gpolizzi@etudiant.univ-mlv.fr