L’arroseur arrosé. OpenAI, qui a formé ChatGPT en moissonnant l’intégralité des sites du web, affirme aujourd’hui que l’entreprise chinoise DeepSeek a utilisé ses données pour former son modèle. Selon le Financial Times, Microsoft aurait détecté un siphonnage massif via les API d’OpenAI à la fin 2024. Le duo suspecte que les comptes utilisés soient liés à DeepSeek, qui fait les gros titres depuis cette semaine.
L’entreprise chinoise propose des modèles d’IA présentés comme aussi performants que ses principaux concurrents tout en étant bien moins gourmands en énergie à former. Si tout cela est discutable sur certains points, le lancement a fait trembler les grands du domaine : Meta a lancé une cellule d’urgence pour disséquer ces nouveaux modèles, tandis que l’app DeepSeek a dépassé celle de ChatGPT sur l’App Store américain.
DeepSeek, la tempête boursière dans un verre de ChatGPT 4o
OpenAI affirme avoir les preuves d’une « distillation », qu’elle suspecte venir de DeepSeek. Cette technique consiste à utiliser les résultats de modèles plus grands et plus performants pour entraîner des modèles plus petits. Une bonne alternative évitant de devoir dépenser les fortunes investies par les mastodontes du secteur. Bien qu’OpenAI propose ses API aux développeurs, elle interdit formellement de s’en servir pour créer un modèle rival.
La startup américaine n’a pas donné de détails sur les preuves qu’elle a récoltées. Plusieurs experts ont observé des réponses des modèles de DeepSeek laissant penser qu’ils pourraient avoir été entraînés sur le GPT-4 d’OpenAI. Un point intéressant vient du fait que les modèles de l’entreprise de Sam Altman sont entièrement gardés sous clef, là où ceux de la startup chinoise sont partiellement ouverts (les données d’entrainement restent privées). Autrement dit, l’arrivée de DeepSeek pourrait donner un nouveau souffle au secteur de l’open source.
« Nous savons que les entreprises basées en Chine - et d'autres - essaient constamment de distiller les modèles des principales entreprises américaines d'IA », a déclaré OpenAI dans un communiqué avant d’ajouter prendre des contre-mesures pour protéger « sa propriété intellectuelle ». « Nous pensons [...] qu'il est essentiel que nous travaillions en étroite collaboration avec le gouvernement américain pour protéger au mieux les modèles les plus performants des efforts déployés par les adversaires et les concurrents pour s'emparer de la technologie américaine », conclut l’entreprise.
Pour rappel, le New York Times ainsi que de nombreux médias et artistes ont attaqué OpenAI en justice pour une exploitation sans autorisation de leurs contenus. La startup s’était alors défendue en déclarant que « l’entraînement de modèles d'intelligence artificielle à l'aide de documents accessibles au public sur l'internet est un usage légitime ». Elle avait également déclaré qu’il était « impossible » de créer des produits comme ChatGPT sans utiliser des matériaux protégés par le droit d’auteur.
Mise à jour à 16 h : Ajout d’un paragraphe rappelant plusieurs procédures en cours contre OpenAI.