Ouvrir le menu principal

MacGeneration

Recherche

Avec Sora, OpenAI fabrique maintenant des vidéos qui peuvent tromper

Florian Innocente

vendredi 16 février 2024 à 13:00 • 151

Ailleurs

OpenAI lance Sora, un modèle d'IA capable de produire des vidéos et des animations à partir de requêtes textuelles. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes.

Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte (les "prompts") en séquences vidéos qui peuvent durer jusqu'à une minute. Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l'utilisateur, mais aussi partir d'une image fixe qui deviendra un petit film, ou imaginer ce qu'il y a avant ou après un extrait de vidéo déjà existant.

Pour une même scène, le sujet peut être modifié à loisir pour lui donner un autre aspect, ou alors c'est le paysage autour de lui que l'on changera. On fera rouler une voiture à l'identique, tantôt sur une route de montagne, tantôt dans une ville… ou dans un fond marin.

Autre élément intéressant, la caméra n'est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l'environnement sera alors visible sous de nouveaux angles. Il ne s'agit pas de produire uniquement des plans figés, mais de simuler le monde réel (même si l'on peut demander à Sora de générer des vidéos façon dessin animé).

Le modèle de Sora est conçu pour comprendre les objets et les interactions entre eux. Comme cet homme qui mord dans un hamburger dont on voit ensuite une partie manquante, celle qui a été avalée et dont l'état est maintenu dans l'animation.

Les nombreux exemples de vidéos produites par Sora sont, pour la plupart, assez étonnants. Il y a déjà moyen de faire illusion. D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. Un degré d'attention qui n'existe guère sur les réseaux.

Un mouvement ou un rendu peuvent avoir une allure qui rappellera les cinématiques des jeux vidéo plutôt que de véritables scènes filmées ou ces bugs qu'ont parfois des moteurs 3D. Une scène représentant un chantier voit le gilet de sécurité d'un personnage changer brutalement de couleur ou un chariot élévateur avancer vers un ouvrier, le toucher et repartir brusquement dans une autre direction.

Ailleurs, ce sont des pattes d'animaux qui semblent déformées (celles d'un dalmatien qui saute d'une fenêtre à l'autre) ou dont le mouvement manque de naturel. De la même manière que cela se passait avec les mains des humains dans les premières images de Dall-E ou Midjourney.

OpenAI liste d'autres faiblesses dans son modèle avec un pot-pourri de quelques vidéos ratées. Sora peut avoir du mal avec la physique : un verre qui tombe ne se brisera pas ; la gauche et la droite peuvent lui poser des problèmes (on voit une démo avec un homme qui avance sur un tapis roulant, mais à l'envers ; une morsure dans un aliment n'apparaîtra pas toujours ; la caméra peut avoir de la peine à suivre correctement une trajectoire.

Cette première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d'identifier les vidéos ainsi produites.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Xhamster et Tukif toujours disponibles en France, protégés du gourdin français par la législation européenne

27/03/2025 à 21:45

• 27


Waymo : l’humain responsable dans quasi tous les cas d’accident avec une voiture autonome de la marque

27/03/2025 à 21:00

• 22


Test du BenQ MA270U : un écran 4K pensé pour le Mac

27/03/2025 à 20:30

• 8


Une RC2 pour macOS 15.4 avec Apple Intelligence et les catégories dans Mail 🆕

27/03/2025 à 19:29

• 22


WhatsApp peut remplacer Téléphone et Messages dans iOS 18

27/03/2025 à 17:53

• 85


Bouygues est déjà dans l'après-ADSL en supprimant ses offres d'abonnement

27/03/2025 à 16:40

• 13


Quel gestionnaire de mots de passe utilisez-vous ?

27/03/2025 à 15:15

• 113


Vanessa Trigub prend la direction des Apple Store

27/03/2025 à 14:45

• 11


Proton VPN intégré par défaut dans Vivaldi pour une navigation plus confidentielle

27/03/2025 à 12:09

• 22


Promos du printemps : des souris de toutes les tailles chez Logitech

27/03/2025 à 11:20

• 15


Orange va améliorer l’interface du petit écran des Livebox 6 et 7

27/03/2025 à 10:46

• 17


Google passera le développement d’Android entièrement en interne cette année

27/03/2025 à 09:59

• 2


Avec GPT-4o, le puissant outil de génération d’images de ChatGPT s'améliore 🆕

27/03/2025 à 09:20

• 70


Control est maintenant disponible sur le Mac App Store (et bientôt Steam) pour 40 € 🆕

27/03/2025 à 07:48

• 47


Plongez au cœur de l’actualité Apple et bien plus encore grâce au Club iGen

26/03/2025 à 23:55

• 19


La bourde Signal, ou quand les principes de base ne sont pas respectés

26/03/2025 à 23:00

• 24