MM1 : le modèle d’IA multimodal d’Apple très doué pour l’analyse d’images

Félix Cattafesta

mardi 26 mars 2024 à 11:30 • 34

Apple continue de distiller ses efforts dans le domaine de l’IA à travers différents papiers de recherche. Après Ferret ou MGIE, l’entreprise a récemment levé le voile sur MM1, un nouveau modèle multimodal pouvant travailler avec du texte et de l’image.

MM1 peut répondre à des demandes naturelles pouvant porter sur des photos. Le papier de recherche donne un exemple où on lui montre un cliché représentant une table sur laquelle sont posées plusieurs bouteilles de bière avant de lui montrer un menu de restaurant. On lui demande ensuite combien il faut s’attendre à payer pour tout cela, ce à quoi le modèle répond correctement. On peut aussi voir MM1 décrire l’ambiance d’une image de manière détaillée, ou effectuer différentes déductions logiques. Le modèle est également sollicité pour aider à utiliser une machine à café, et se débrouille bien pour répondre à plusieurs requêtes à la suite.

Ce type de modèle est similaire sur certains points au Llama de Meta ou au Gemini de Google. Il peut servir à alimenter un chatbot général ou plus spécifique, par exemple en effectuant des actions. On peut imaginer que la nouveauté finira par trouver sa place dans l’écosystème Apple, comme pour décrire des photos ou des documents. Ce type de technologie ouvre notamment de nombreuses portes dans le domaine de l’accessibilité.

Le modèle est composé d’une famille de différentes tailles, globalement assez petit si l’on se fie à leur nombre des paramètres. Les chercheurs expliquent obtenir tout de même de bons résultats grâce à un gros travail d’optimisation. Le but est sans doute de le faire tourner en local sans passer par le nuage, ce qui est un bon point niveau confidentialité. Cela demande cependant pas mal de puissance sous le capot : il semblerait qu’Apple envisage des déclinaisons mettant le paquet sur l’IA pour ses prochaines puces de smartphone.

Source :

Accroche : Copilot.

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

MM1 : le modèle d’IA multimodal d’Apple très doué pour l’analyse d’images

Pour aller plus loin :

Rejoignez le Club iGen

Actualités

Émulation : comment jouer à ses vieux jeux sur iPhone ou iPad ?

Pour le producteur de La Maison, « Apple est la pire boîte marketing de l’univers »

Upscaling vidéo et restauration photo plus rapides sur Mac/PC : VideoProc AI mis à jour est à - 62 % 📍

Derniers jours Apple week à la Fnac : -10 % sur des MacBook Pro, iPhone 15 Pro à 16 Pro Max et iPad Pro M4

dav1d, le décodeur AV1 le plus optimisé qu'Apple refuse d'utiliser

Microsoft a conçu une publicité par IA et personne n’a rien vu

Razer lance sa première souris ergonomique verticale face à Logitech

Yahoo! veut acheter Chrome

Slate veut repartir de zéro avec un pick-up électrique compact et épuré pour moins de 20 000 $

iPadOS 19 verrait apparaître une barre de menus sur iPad

Huit ans après DeX, Apple s’ouvrirait peu à peu à un bureau sur écran externe pour iOS 19

John Giannandrea aurait aussi perdu l'équipe en charge de la robotique chez Apple

Les procès antitrust contre les GAFAM se poursuivent aux USA, malgré les changements de présidence

Prise en main de Supercharge, l’app à tout faire qui rend bien des services sur le Mac

TSMC annonce la gravure en 1.4 nm, quand la Russie espère atteindre les 28 nm en 2030

Données personnelles : comment Incogni supprime ce que les autres ne peuvent pas 📍

Image du moment

Tests

Test du BenQ MA270U : un écran 4K pensé pour le Mac

Test du QNAP QNA-UC10G1T, le premier adaptateur Ethernet 10 Gb/s en USB4, parfait pour profiter de la fibre ultra-rapide

Test des Mac Studio de 2025 : une drôle de gamme

Test des MacBook Air M4 : faut-il lâcher la M1 ?

Test d’écrans portables à bas prix : bonne affaire ou déception garantie ?

Test du LaCie Rugged SSD Pro5, un SSD externe Thunderbolt 5 capable d'atteindre 6 Go/s