Ouvrir le menu principal

MacGeneration

Recherche

Meta lance une IA qui sait discerner et trier les objets d'une image sans les avoir vus auparavant

Félix Cattafesta

jeudi 06 avril 2023 à 10:46 • 38

Ailleurs

Meta vient de présenter un nouveau modèle d'intelligence artificielle baptisé « Segment Anything Model » (SAM). Celui-ci peut identifier les différents objets d'une image, même ceux qu'il n'a jamais rencontrés pendant sa période d'entraînement.

Image : Meta.

Meta explique que cette nouveauté offre une grande avancée par rapport aux techniques précédentes. Auparavant, il existait deux méthodes pour classer massivement les objets d'une banque d'images : une manuelle nécessitant la présence d'un humain guidant la machine, et une seconde automatique utilisant d'énormes bases de données annotées manuellement pour l'apprentissage. Ce nouveau modèle promet de changer la donne.

« SAM est suffisamment général pour couvrir un large éventail de cas d'utilisation et peut être utilisé d'emblée dans de nouveaux "domaines" d'images - qu'il s'agisse de photos sous-marines ou de microscopie cellulaire - sans nécessiter de formation supplémentaire », explique Meta. L'entreprise affirme que c'est une première dans le domaine. Le modèle a été entraîné pendant 3 à 5 jours sur 256 GPU A100 et peut désormais analyser des images directement en local depuis un navigateur. Il ne fonctionne pas encore complètement avec les vidéos, Meta précisant qu'il ne peut traiter que des frames individuelles.

Démo de SAM, accessible en ligne.

Une démo a été mise en ligne permettant de mieux comprendre comment tout cela fonctionne. Il est possible de demander à l'IA d'analyser une image de son choix ou tirée d'une galerie d'exemples. On peut ensuite détourer les objets simplement en cliquant dessus, en les entourant d'une boîte ou en appuyant sur un bouton offrant de tout extraire. Plus tard, il sera même possible d'écrire simplement l'objet que l'on veut retrouver pour que l'IA fasse le tri (chats, chaise, etc.).

Cette nouveauté devrait permettre de simplifier l'analyse et le traitement des images : il sera beaucoup plus facile de détecter et de classifier un type d'objets spécifiques dans une énorme base de données de clichés. La technologie pourra aussi servir pour la retouche de photos ou dans le monde de l'AR/VR, permettant au casque de mieux comprendre les objets qu'il a en face de lui.

Image : Meta.

Meta explique avoir utilisé son outil pour construire le plus grand ensemble de données de segmentation à ce jour, avec plus d'un milliard de masques tirés de « 11 millions d'images sous licence et respectant la vie privée ». La base de données (nommée SA-1B) a été créée en même temps que SAM : des annotateurs indiquaient ce qui se trouvait sur les images analysées par l'IA, qui était ensuite mis à jour avec ces nouvelles données. Ce cycle a été répété de nombreuses fois jusqu'à obtenir un modèle complet.

Si Meta concède que sa base dispose de certaines lacunes en lien avec des régions géographiques sous-représentées, SA-1B ferait bien mieux que la concurrence niveau qualité. « Nous avons analysé les biais potentiels de notre modèle en fonction du sexe, du teint et de la tranche d'âge perçus des personnes, et nous avons constaté que SAM fonctionne de manière similaire dans les différents groupes », explique le texte.

Les deux modèles sont disponibles sur Github sous des licences non commerciales. Cette présentation permet à Meta d'affirmer sa place de pointure dans le domaine de l'IA. En interne, l'entreprise dispose déjà d'équivalents à DALL-E pour l'image et la vidéo, et a publié son alternative open source à GPT-3. Hier, elle a annoncé vouloir lancer un modèle offrant de générer des publicités d'ici la fin de l'année.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Une quatrième bêta pour iOS et iPadOS 18.5

06:20

• 15


MacBook Air M4 : la chute des prix se poursuit sur ce nouvel incontournable

28/04/2025 à 23:10

• 31


Safari : l’extension Tabstract permet de facilement retrouver un groupe d’onglets

28/04/2025 à 21:00

• 3


Les apps Electron méritent-elles encore leur mauvaise réputation ?

28/04/2025 à 20:30

• 8


macOS 15.5 passe en bêta 4

28/04/2025 à 19:08

• 2


PowerPhotos 3 toujours plus puissant pour gérer les bibliothèques de Photos

28/04/2025 à 15:29

• 0


Un écran E Ink rafraîchi à 60 Hz chez Dasung

28/04/2025 à 15:02

• 17


À quoi ressembleront les AirPods Pro 3 ? Voici les nouveautés attendues

28/04/2025 à 14:42

• 30


France Identité : le permis de conduire numérique va devenir plus complet

28/04/2025 à 14:41

• 41


Le très bon SSD externe Corsair USB4 de 2 To à 199 €, son prix le plus bas à ce jour

28/04/2025 à 12:05

• 0


La responsable de Chrome estime que seul Google peut gérer son navigateur

28/04/2025 à 10:14

• 13


Bouygues Telecom améliore encore son offre B&You Pure fibre, laissant la concurrence loin derrière

28/04/2025 à 10:01

• 101


Netflix va systématiquement proposer des sous-titres dans la langue d’origine du contenu

28/04/2025 à 09:49

• 13


Apple a invité des influenceurs du monde entier pour les 10 ans de l'Apple Watch

27/04/2025 à 22:18

• 74


Test d'un traqueur Bluetooth à moins de 4 € : est-il vraiment aussi bien qu'un AirTag ?

27/04/2025 à 22:18

• 19


Fin des remaniements internes, déplacement d’usines et projets de réalité augmentée : la semaine Apple

27/04/2025 à 20:30

• 33