OpenAI affirme que DeepSeek a siphonné ses données pour entrainer ses modèles

Félix Cattafesta

mercredi 29 janvier 2025 à 15:30 • 110

L’arroseur arrosé. OpenAI, qui a formé ChatGPT en moissonnant l’intégralité des sites du web, affirme aujourd’hui que l’entreprise chinoise DeepSeek a utilisé ses données pour former son modèle. Selon le Financial Times, Microsoft aurait détecté un siphonnage massif via les API d’OpenAI à la fin 2024. Le duo suspecte que les comptes utilisés soient liés à DeepSeek, qui fait les gros titres depuis cette semaine.

L’entreprise chinoise propose des modèles d’IA présentés comme aussi performants que ses principaux concurrents tout en étant bien moins gourmands en énergie à former. Si tout cela est discutable sur certains points, le lancement a fait trembler les grands du domaine : Meta a lancé une cellule d’urgence pour disséquer ces nouveaux modèles, tandis que l’app DeepSeek a dépassé celle de ChatGPT sur l’App Store américain.

OpenAI affirme avoir les preuves d’une « distillation », qu’elle suspecte venir de DeepSeek. Cette technique consiste à utiliser les résultats de modèles plus grands et plus performants pour entraîner des modèles plus petits. Une bonne alternative évitant de devoir dépenser les fortunes investies par les mastodontes du secteur. Bien qu’OpenAI propose ses API aux développeurs, elle interdit formellement de s’en servir pour créer un modèle rival.

La startup américaine n’a pas donné de détails sur les preuves qu’elle a récoltées. Plusieurs experts ont observé des réponses des modèles de DeepSeek laissant penser qu’ils pourraient avoir été entraînés sur le GPT-4 d’OpenAI. Un point intéressant vient du fait que les modèles de l’entreprise de Sam Altman sont entièrement gardés sous clef, là où ceux de la startup chinoise sont partiellement ouverts (les données d’entrainement restent privées). Autrement dit, l’arrivée de DeepSeek pourrait donner un nouveau souffle au secteur de l’open source.

« Nous savons que les entreprises basées en Chine - et d'autres - essaient constamment de distiller les modèles des principales entreprises américaines d'IA », a déclaré OpenAI dans un communiqué avant d’ajouter prendre des contre-mesures pour protéger « sa propriété intellectuelle ». « Nous pensons [...] qu'il est essentiel que nous travaillions en étroite collaboration avec le gouvernement américain pour protéger au mieux les modèles les plus performants des efforts déployés par les adversaires et les concurrents pour s'emparer de la technologie américaine », conclut l’entreprise.

Pour rappel, le New York Times ainsi que de nombreux médias et artistes ont attaqué OpenAI en justice pour une exploitation sans autorisation de leurs contenus. La startup s’était alors défendue en déclarant que « l’entraînement de modèles d'intelligence artificielle à l'aide de documents accessibles au public sur l'internet est un usage légitime ». Elle avait également déclaré qu’il était « impossible » de créer des produits comme ChatGPT sans utiliser des matériaux protégés par le droit d’auteur.

Mise à jour à 16 h : Ajout d’un paragraphe rappelant plusieurs procédures en cours contre OpenAI.

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

OpenAI affirme que DeepSeek a siphonné ses données pour entrainer ses modèles

Pour aller plus loin :

Rejoignez le Club iGen

Actualités

QEMU passe en version 10 et gagne quelques fonctions graphiques sur les Mac

Kernel Panic : 20 ans d’Intel, merci et bon débarras ?

OpenAI voudrait bien acheter Chrome, si le navigateur de Google était à vendre

Intel pourrait licencier environ 20 000 personnes de plus

Smash Smash, une app qui permet de se défouler (virtuellement) sur l’écran de son Mac

Google ne changera rien pour les cookies tiers dans Chrome : l'abandon est bien abandonné

Apple a mis à jour XProtect, l'anti-malware de macOS

La troisième bêta de macOS 15.5 est disponible 🆕

Choisissez le moniteur parfait pour votre Mac

Tesla aurait de nouveau perdu de l’argent au premier trimestre 2025 sans les crédits carbone

Apple réorganise Siri avec des équipes du Vision Pro

Hausse de Netflix : Canal+ augmente légèrement le prix de l’option Premium, Free ne change rien pour le moment

Le prochain routeur Starlink va être Wi-Fi 6E

ChatGPT Search pourrait bientôt gagner ses galons de très grand moteur de recherche en Europe

Pearl aurait repris l'enseigne Macway

Counterpoint : le MacBook Air M4 et la crainte des droits de douane ont poussé les ventes d'Apple

Image du moment

Tests

Test du BenQ MA270U : un écran 4K pensé pour le Mac

Test du QNAP QNA-UC10G1T, le premier adaptateur Ethernet 10 Gb/s en USB4, parfait pour profiter de la fibre ultra-rapide

Test des Mac Studio de 2025 : une drôle de gamme

Test des MacBook Air M4 : faut-il lâcher la M1 ?

Test d’écrans portables à bas prix : bonne affaire ou déception garantie ?

Test du LaCie Rugged SSD Pro5, un SSD externe Thunderbolt 5 capable d'atteindre 6 Go/s