Une base de données pour l'IA, employée notamment par Apple, contient des vidéos YouTube

Pierre Dandumont

mardi 16 juillet 2024 à 21:30 • 7

Une enquête vient de montrer que les géants de la high-tech — Nvidia, Salesforce mais aussi Apple¹ et bien d'autres — utilisent une base de données pour l'IA qui a été entraînée sur des vidéos YouTube sans l'accord des créateurs.

La base de données ne se base pas sur les vidéos directement, mais sur les transcriptions de ces dernières, sous la forme de sous-titres dans différentes langues. La co-enquête entre Wired et Proof News montre que la base contient des textes issus de plus de 48 000 chaînes, pour 173 536 vidéos.

La base de données contient des dizaines de milliers de sous-titres de vidéos. Image YouTube.

On trouve dans la liste des vidéos éducatives issues du MIT ou d'Hardware mais aussi d'émissions comme The Late Show With Stephen Colbert, Last Week Tonight With John Oliver ou Jimmy Kimmel Live. De nombreux vidéastes connus sont aussi de la partie, de Marques Brownlee à PewDiePie ou MrBeast. Les données en question se trouvent dans la base de données The Pile, collectée par EleutherAI. Cet ensemble de données de près de 900 Go est open source et souvent employé pour entraîner des IA et les sous-titres ne représentent qu'une petite partie des données.

Selon Wired, ce n'est pas la seule base de données qui emploie des vidéos YouTube : Google emploierait les données de YouTube (qui lui appartient) et OpenAI aurait aussi utilisé YouTube pour entraîner Sora. Qui plus est, l'intégration de sous-titres dans la base de données sans autorisation peut poser des soucis : plus de 12 000 des vidéos employées ont été supprimées depuis l'intégration.

La base de données date de 2020. Image YouTube.

Dans tous les cas, cette histoire met encore en avant un problème récurrent avec l'entraînement des IA : la provenance des données. Imaginez, peut-être qu'un jour une IA nous proposera de nous abonner à Nord VPN… Pour ceux que ça intéresse, la base de données a été construite en 2020 (donc les transcriptions sont parfois anciennes) et Proof News propose un outil pour chercher dans les vidéos en question.

Au moins avec OpenELM. ↩︎

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

Une base de données pour l'IA, employée notamment par Apple, contient des vidéos YouTube

Rejoignez le Club iGen

Actualités

OpenAI envisagerait de lancer un réseau social basé notamment sur des images générées par ChatGPT

Notion lance un client Gmail dopé à l’IA sur le web et pour le Mac

Comment fonctionnent vraiment les modes Performance et Économie d'énergie des Mac

Des bracelets cheville pour accrocher son Apple Watch au bras ou sous le mollet

La seconde bêta de macOS 15.5 est disponible, aussi en version publique 🆕

Pourquoi devez-vous (vraiment) craquer pour un écran BenQ MA270U ou MA320U avec votre Mac ? 📍

Apple ferait une promo en échange d'un recyclage de vieux accessoires et matériels

iPhone des 20 ans : vers la fin de l’encoche et de la Dynamic Island ?

De petits changements dans l'interface de Mail pour macOS 15.5 et iOS 18.5

Edge : Microsoft affirme que son navigateur est désormais 9 % plus rapide

La Livebox S va simplifier les installations et les dépannages grâce à son crayon optique intégré

Votre Mac principal, c'est un Mac Intel ou un Mac Apple Silicon ?

Avec macOS 15.4 Dropbox peut s'installer sur un volume externe

Promo : la MX Master 3S à 73,99 €, son plus bas prix (-43 %)

Apple veut améliorer les modèles d’Apple Intelligence grâce aux usages de ses utilisateurs

Promo : le nouveau MacBook Air M4 glisse à 1 099 €

Image du moment

Tests

Test du BenQ MA270U : un écran 4K pensé pour le Mac

Test du QNAP QNA-UC10G1T, le premier adaptateur Ethernet 10 Gb/s en USB4, parfait pour profiter de la fibre ultra-rapide

Test des Mac Studio de 2025 : une drôle de gamme

Test des MacBook Air M4 : faut-il lâcher la M1 ?

Test d’écrans portables à bas prix : bonne affaire ou déception garantie ?

Test du LaCie Rugged SSD Pro5, un SSD externe Thunderbolt 5 capable d'atteindre 6 Go/s