Ouvrir le menu principal

MacGeneration

Recherche

L'IA et les modèles de langage peuvent compresser du texte de façon très efficace

Pierre Dandumont

lundi 13 mai 2024 à 17:00 • 20

Logiciels

Un développeur a effectué une petite expérience très intéressante récemment : il a employé un grand modèle de langage (LLM, ce qui est souvent appelé IA, même si c'est un abus de langage) pour compresser du texte. Et le résultat est assez impressionnant, malgré quelques limites.

Les IA peuvent compresser le texte où apparaît ce lapin.

L'exemple porte le nom de Drink Me, pour une bonne raison : Julian a effectué ses essais sur le premier chapitre du livre Les Aventures d'Alice au pays des merveilles. Il a employé llaman.cpp, un logiciel open source qui peut utiliser les modèles LLaMA de Meta.

La décompression en cours.

Le fonctionnement exact est expliqué dans son sujet, mais l'idée est de ne stocker que le nécessaire pour que le logiciel puisse générer le texte à partir des informations stockées dans le modèle. Sur le premier chapitre du livre, qui contient 11 994 caractères, la version compressée ne nécessite que 986 caractères, soit 8 % seulement de la valeur d'origine. C'est très nettement mieux que les programmes de compression classiques, mais avec évidemment quelques contraintes et limites.

Un problème de taille

Le premier défaut est évident : la puissance nécessaire est élevée, et sur plusieurs niveaux. Il a en effet fallu créer le modèle lui-même, et tant la compression que la décompression nécessitent beaucoup de mémoire vive et une bonne puissance de calcul. Le second défaut est un peu différent : la compression est beaucoup moins efficace si le modèle ne contient pas les données au départ (le post d'origine de Julian passe de 3 436 à 2 691 caractères). Ce défaut peut être présenté dans l'autre sens : si le texte à compresser a été employé pour créer le modèle — ce qui est a priori le cas de la version originale d'Alice's Adventures in Wonderland —, la compression est extrêmement efficace.

Cet autre post montre bien les gains : le modèle LLaMA-3-8B (8 milliards de paramètres) permet d'obtenir un fichier 58,4 x plus petit pour le même premier chapitre ou 131 x plus petit pour un texte très courant comme le contenu de la licence GPL v2. Mais pour du texte produit par l'auteur, les résultats sont plus faibles (4,4 x, 5,76 x ou 6,93 x). Dans tous les cas, la compression avec les outils classiques comme GZIP (certes plus rapide) est nettement moins efficace, avec des fichiers environ 2 x plus petits que les originaux.

Dans la pratique, il ne s'agit évidemment pour le moment que d'une sorte de démonstration technologique. Mais qui sait, peut-être que les sociétés qui développent les grands modèles de langage pourraient s'intéresser à cette solution dans le futur, pour ajouter une nouvelle corde à l'arc de « l'IA ».

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

iOS, iPadOS, macOS, watchOS, tvOS et visionOS 26.2 bêta 2 est de sortie pour les développeurs

12/11/2025 à 23:54

• 1


Écrans 4K et 5K pour Mac : les meilleures offres du Black Friday à ne pas rater !

12/11/2025 à 22:55

• 0


OpenAI lance GPT-5.1, annonçant un chatbot plus amical et chaleureux

12/11/2025 à 21:45

• 8


Valve annonce une console de salon et un nouveau casque VR, en vente début 2026

12/11/2025 à 21:30

• 37


Achats de Noël : les retours de l’Apple Store prolongés jusqu’au 8 janvier 2026

12/11/2025 à 18:52

• 2


Apple semble abandonner Apple Intelligence sur les Mac M1... mais c'est peut-être une erreur

12/11/2025 à 18:10

• 47


Pour les retardataires : le magazine des 25 ans de MacG et son mug sont à nouveau en vente !

12/11/2025 à 17:14

• 37


30 ans plus tard, le Motorola 68060 fonctionne enfin dans un Macintosh

12/11/2025 à 15:25

• 15


Rapatriez votre cloud en Europe avec Proton ! 200 Go pour 1,99 € par mois

12/11/2025 à 13:32

• 0


macOS Tahoe : des problèmes de sauvegarde Time Machine sur des NAS

12/11/2025 à 12:33

• 29


Minisforum lance son premier PC ARM, qui ne concurrence pas le Mac mini

12/11/2025 à 11:55

• 12


Le gestionnaire de paquets Homebrew 5 prend officiellement en charge macOS 26

12/11/2025 à 11:37

• 6


Aqara FP300 : le premier détecteur de présence sur pile pour Matter est disponible à 42,5 € en promo

12/11/2025 à 09:14

• 16


Des ONG européennes s’attaquent à la notarisation : l'ultime verrou d’Apple

12/11/2025 à 08:55

• 126


Google s’inspire du Private Cloud Compute d’Apple pour imaginer le Private AI Compute

12/11/2025 à 08:49

• 6


Qu'attendre des AirTag 2, promis avant la fin de l'année ?

12/11/2025 à 07:14

• 47