Vous n’aviez jamais entendu parler de DeepSeek ? Vous ne pourrez bientôt plus feindre l’ignorance. La petite entreprise chinoise, bras armé d’un fonds d’investissement spécialisé dans les applications de l’intelligence artificielle, fait soudainement les choux gras de la presse économique. Son nouveau modèle à raisonnement, écrit le Financial Times, « atteint des performances comparables aux modèles de ses rivaux américains OpenAI et Meta en affirmant utiliser bien moins de puces Nvidia. » Si cela semble trop beau pour être vrai, c’est parce que c’est faux.
Le tombereau d’articles mi-apologétiques mi-apocalyptiques, qui ont causé une petite tempête boursière, révèle une méconnaissance du marché chinois confinant au mépris. Ainsi lorsque Le Monde dit que DeepSeek a été fondée « par un obscur gérant de fonds de Hangzhou », il oublie fort opportunément que le gérant en question est considéré comme un expert des applications pratiques de l’intelligence artificielle en Chine.
Liang Wenfeng, c’est son nom, s’est intéressé aux usages du machine learning dans la finance quantitative au moment même où éclatait la crise financière de 2008. Après plusieurs années de recherches sous l’égide de l’université du Zhejiang, il a fondé avec deux camarades de classe le hedge fund High-Flyer, qui a rapidement créé des centaines de produits financiers pilotés par des robots de trading. Jusqu’à la fin de l’année 2020, les clients du fonds pouvaient espérer engranger entre 20 et 50 % de plus que la moyenne du marché.
C’est à cette époque que Liang Wenfeng s’est mis à acheter des centaines de cartes graphiques Nvidia, avant que les sanctions américaines n’entrent en vigueur, pour construire des supercalculateurs dédiés au deep learning. Après deux années de volatilité des marchés et malgré des rendements encore supérieurs à celui de l’indice CSI 300 des trois-cents plus grandes capitalisations boursières chinoises, High-Flyer s’est progressivement désengagé des produits financiers les plus risqués pour se tourner vers la recherche sur les intelligences artificielles générales.
En 2023, le fonds a ainsi créé DeepSeek avec l’ambition de mettre à profit un trésor de guerre unique en Chine, plus de dix-mille cartes Nvidia A100. Si son premier modèle n’a pas marqué les esprits, DeepSeek-V2 est entré dans le top 10 des modèles les plus performants en mai 2024 et DeepSeek-V3 ne cesse de provoquer des remous depuis sa présentation en décembre dernier. David Wade, chef de cabinet du secrétaire d’État John Kerry reconverti dans l’analyse stratégique, parle ainsi d’un « moment Spoutnik ».
La comparaison avec le lancement du satellite russe, qui avait été vécu comme un traumatisme par l’opinion américaine, n’est pas complètement usurpée. DeepSeek, qui recrute à tour de bras dans les universités chinoises, assure avoir dépensé moins de six-millions de dollars pour entrainer son dernier modèle, distribué sous licence MIT. Les entreprises américaines ont dépensé plus de 224 milliards de dollars dans les intelligences artificielles en 2024. OpenAI, Oracle et Softbank ont annoncé la semaine dernière qu’elles investiront plus de 500 milliards de dollars dans les quatre prochaines années.
Il n’en fallait pas plus pour provoquer une véritable panique boursière, qui a effacé 300 milliards de dollars de la capitalisation boursière de Nvidia et plongé toutes les valeurs plus ou moins liées au machine learning dans le rouge. D’aucuns pensent avoir assisté à l’éclatement de la bulle et critiquent un nouvel échec de la stratégie de l’endiguement. Avec ses 617 milliards de paramètres, DeepSeek-V3 produit des résultats comparables à ChatGPT-4o et Claude 3.5 Sonnet, fruits de milliards de dollars d’investissements.
Mais il y a un mais. Comme le New York Times, Bloomberg et tous ceux qui les ont repris la bouche en cœur, le Financial Times confond le grand modèle de langage DeepSeek-V3 avec le modèle à raisonnement DeepSeek-R1. À raison de deux dollars de l’heure par carte, chiffre avancé par l’entreprise chinoise qui n’est pas complètement farfelu, l’entrainement de DeepSeek-V3 sur un cluster de cartes Nvidia H800 pendant deux mois a peut-être couté moins de six-millions de dollars… si l’on ignore tous les investissements antérieurs.
DeepSeek a choisi l’approche du « mélange d’experts » pour diviser son modèle en 256 réseaux distincts, chacun spécialisé dans un sous-ensemble de données. Ce compromis entre la capacité des grands modèles fondamentaux et l’efficacité des petits modèles, notamment utilisé par l’entreprise française Mistral, permet précisément d’entrainer rapidement des modèles performants à moindre cout. Sauf que le modèle qui fait frémir la bourse et a propulsé l’application de DeepSeek en tête des boutiques d’application n’est pas DeepSeek-V3, mais plutôt DeepSeek-R1.
Comme le modèle OpenAI o1, DeepSeek-R1 tâche de simuler un raisonnement par tâtonnements, perdant en rapidité d’exécution ce qu’il gagne en finesse d’analyse. Outre ses deux principaux modèles, DeepSeek a aussi publié six modèles « distillés » plus modestes, comportant entre 1,5 et 70 milliards de paramètres, qui peuvent tourner sur un ordinateur portable. Le modèle chinois semble être à la hauteur des modèles américains dans la plupart des tests synthétiques, mais doit produire des réponses « conformes aux valeurs socialistes » et ne veut rien dire de l’indépendance de Taiwan ou du massacre de la place Tian’anmen.
Puisque DeepSeek-R1 est lui-même basé sur DeepSeek-V3, et que l’entreprise chinoise s’est bien gardée de parler du cout de son entrainement spécifique, le chiffre avancé par la plupart de nos confrères est absolument faux. Ce moment doit bien être marqué comme un tournant des intelligences artificielles génératives, parce qu’il confirme l’intérêt du « mélange d’experts » et relance la concurrence après quelques mois de relative atonie, mais il montre aussi que la bêtise humaine a de beaux jours devant elle…