Ouvrir le menu principal

MacGeneration

Recherche

IA : Qualcomm s'intéresse à la génération d'images en local

Félix Cattafesta

mercredi 21 juin 2023 à 15:04 • 4

Ailleurs

Qualcomm s'intéresse aux modèles d'IA génératives tournant en local. L'entreprise vient de dévoiler ControlNet, un modèle de langage-vision dans la même veine que Stable Diffusion ou MidJourney. Une démo a été présentée, dans laquelle on peut voir une image générée sur un téléphone en moins de 12 secondes, sans passer par le cloud.

Qualcomm explique avoir utilisé une série d'optimisations au niveau de l'architecture du modèle, du logiciel d'IA et des accélérateurs du moteur neuronal pour obtenir ce résultat. La référence du téléphone utilisé n'est pas précisée, mais on peut voir que l'entreprise a mis la main à la pâte pour optimiser son modèle de 1,5 milliard de paramètres. Ce n'est pas la première fois que l'on peut utiliser un modèle du genre sur smartphone : une démo de Stable Diffusion sur Android a été présentée en début d'année. Sur iOS, il est possible de se servir du modèle de langage via des apps comme Draw Things ou AI Photo.

Le fait de pouvoir faire tourner des modèles d'IA générative en local est important : cela permet de moins dépendre du cloud, ce qui est toujours bon pour la protection de ses données privées. Si la nouveauté sert pour le moment à générer des images à partir de mots, elle pourrait rapidement infuser ici et là dans l'appareil. Qualcomm a par exemple dévoilé un modèle de langage utilisé pour donner voix à un coach de gym virtuel. Le concept se base sur un second modèle d'IA pouvant détecter et identifier les positions de gym, ce qui permet de générer des réponses dans le contexte.

La réalité mixte (au cœur du futur Vision Pro d'Apple) n'est pas en reste, et Qualcomm a également fait quelques annonces de ce côté-là. L'entreprise a notamment présenté un système de reconstruction 3D pour les apps XR mais aussi des avancées dans la création d'avatars 3D. Qualcomm a une carte à jouer dans le domaine : c'est elle qui produit les puces qui équipent les casques de Meta, principal opposant à Apple sur le terrain de la réalité mixte.

L'entreprise a également présenté ses avancées dans différents domaines, comme pour ce qui touche à l'encodage de vidéos 1080p sur smartphone ou de meilleurs algorithmes de vision par ordinateur pour les caméras de surveillance. Elle a aussi mis en avant un système de surveillance du conducteur pour véhicule, vérifiant l'état du chauffeur et le prévenant lorsqu'il détecte une pratique dangereuse (somnolence, distraction).

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Comme prévu, l’ADSL est coupé aujourd’hui dans le centre-ville de Rennes

14:17

• 11


Encadrement du pistage : Apple écope d’une amende de 150 millions d’euros pour abus de position dominante

12:46

• 42


Promo : le Mac mini M4 avec 512 Go de stockage à 812 € au lieu de 949

11:28

• 7


Guillaume Gete organise un séminaire de deux jours à Paris pour les gestionnaires de parcs Apple

08:17

• 11


Synchronisez et sécurisez vos appareils Apple avec QNAP (Qsync & MyQNAPcloud Storage)📍

08:00


iOS 18.4 : Google Maps peut remplacer Plans comme app par défaut

07:28

• 57


L’app santé dopée à l’IA et les prochains produits M5 : la semaine Apple

30/03/2025 à 20:00

• 42


Promos du printemps : quelques réductions sur des SSD externes, jusqu'à 4 To

30/03/2025 à 16:45

• 29


Faux mails : le guide pour sécuriser vos données 📍

30/03/2025 à 11:47


Sauvegarde en ligne : peut-on trouver mieux que Backblaze en 2025 ?

30/03/2025 à 10:00

• 51


Apple et le changement d’heure, une longue liste de ratés

30/03/2025 à 08:58

• 99


Elon Musk se vend X à lui-même, en faisant racheter le réseau par xAI

29/03/2025 à 22:15

• 35


Êtes-vous impatient de tester Apple Intelligence ?

29/03/2025 à 14:15

• 103


Sortie de veille : WWDC 2025, l’édition de tous les risques ?

29/03/2025 à 08:00

• 18


Pourquoi la France est-elle privée d’AI Overviews par Google ?

28/03/2025 à 21:15

• 55


Quand la reconnaissance faciale vous interdit l’entrée d’un concert pour un post sur les réseaux sociaux

28/03/2025 à 20:30

• 109