L'IA et les modèles de langage peuvent compresser du texte de façon très efficace

Pierre Dandumont

lundi 13 mai 2024 à 17:00 • 20

Un développeur a effectué une petite expérience très intéressante récemment : il a employé un grand modèle de langage (LLM, ce qui est souvent appelé IA, même si c'est un abus de langage) pour compresser du texte. Et le résultat est assez impressionnant, malgré quelques limites.

Les IA peuvent compresser le texte où apparaît ce lapin.

L'exemple porte le nom de Drink Me, pour une bonne raison : Julian a effectué ses essais sur le premier chapitre du livre Les Aventures d'Alice au pays des merveilles. Il a employé llaman.cpp, un logiciel open source qui peut utiliser les modèles LLaMA de Meta.

La décompression en cours.

Le fonctionnement exact est expliqué dans son sujet, mais l'idée est de ne stocker que le nécessaire pour que le logiciel puisse générer le texte à partir des informations stockées dans le modèle. Sur le premier chapitre du livre, qui contient 11 994 caractères, la version compressée ne nécessite que 986 caractères, soit 8 % seulement de la valeur d'origine. C'est très nettement mieux que les programmes de compression classiques, mais avec évidemment quelques contraintes et limites.

Un problème de taille

Le premier défaut est évident : la puissance nécessaire est élevée, et sur plusieurs niveaux. Il a en effet fallu créer le modèle lui-même, et tant la compression que la décompression nécessitent beaucoup de mémoire vive et une bonne puissance de calcul. Le second défaut est un peu différent : la compression est beaucoup moins efficace si le modèle ne contient pas les données au départ (le post d'origine de Julian passe de 3 436 à 2 691 caractères). Ce défaut peut être présenté dans l'autre sens : si le texte à compresser a été employé pour créer le modèle — ce qui est a priori le cas de la version originale d'Alice's Adventures in Wonderland —, la compression est extrêmement efficace.

Cet autre post montre bien les gains : le modèle LLaMA-3-8B (8 milliards de paramètres) permet d'obtenir un fichier 58,4 x plus petit pour le même premier chapitre ou 131 x plus petit pour un texte très courant comme le contenu de la licence GPL v2. Mais pour du texte produit par l'auteur, les résultats sont plus faibles (4,4 x, 5,76 x ou 6,93 x). Dans tous les cas, la compression avec les outils classiques comme GZIP (certes plus rapide) est nettement moins efficace, avec des fichiers environ 2 x plus petits que les originaux.

Dans la pratique, il ne s'agit évidemment pour le moment que d'une sorte de démonstration technologique. Mais qui sait, peut-être que les sociétés qui développent les grands modèles de langage pourraient s'intéresser à cette solution dans le futur, pour ajouter une nouvelle corde à l'arc de « l'IA ».

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

L'IA et les modèles de langage peuvent compresser du texte de façon très efficace

Un problème de taille

Rejoignez le Club iGen

Actualités

Flitedeck : un CarPlay Ultra mais pour les vélos de route

Promo : un switch Ethernet compact à moins de 15 €

Pas d’iPad pliable avant longtemps ? Apple mettrait le projet sur pause

Une multiprise avec ports USB bien pratique et compacte pour le bureau

SFR : le retour à trois opérateurs se prépare chez Orange, Bouygues et Free

Kernel Panic : que valent les premières bêtas d’iOS et macOS 26 ?

Polysoft va bientôt proposer un kit pour augmenter le stockage des Mac Studio M3/M4

Refurb : jusqu'à -370 € sur l'Apple Studio Display 5K

Free propose un an de fibre optique à 19,99 € par mois avec la Freebox Revolution Light

Produits Apple : vers une baisse de prix à la rentrée grâce à la faiblesse du dollar ?

Apple Store : le crédit à 0 % prolongé cet été

Stockage cloud : l’offre pCloud Lifetime avec 70 % de remise jusqu’au 15 juillet 📍

Apple fait une nouvelle mise à jour de son antimalware XProtect

L'absence de ventilateurs de certains Mac portable peut les protéger des malwares

Mactracker 8 synchronise votre collection de produits Apple sur tous vos Mac

Passez à CarPlay sans fil pour moins de 20 €

Image du moment

Tests

Test du BenQ PD2730S : un moniteur 5K de 27" attrayant

Test de l'Eaton 3S Mini : le mini onduleur pour les box internet… qui ne convient pas pour toutes

Test de l'Asustor Flashstor 12 Gen2 : le NAS « full SSD » qui bat des records

Test de la Pro Click V2 Vertical de Razer : une souris verticale qui n’est pas que pour les joueurs

Test de l'Asus PA32UCDM : un écran QD-OLED à 240 Hz pour macOS, est-ce bien utile ?

Test de l'antenne Starlink mini, parfaite pour ceux qui aiment voyager