Alors que l'état de l'art en matière d'intelligence artificielle fait des progrès de saut de puce sur le plan théorique, un de ses champs d'application fait en revanche des progrès fulgurants qui pourrait bien révolutionner notre approche de l'informatique.
Les dernières estimations prédisent que l'ordinateur parviendra à égaler l'intelligence humaine d'ici un demi-siècle, mais pour l'heure nous ne sommes pas même capables de reproduire l'intelligence d'un nourrisson.
Tout au plus, la dernière annonce tonitruante d'IBM dans ce domaine de recherche, prétend-t-elle égaler celle d'un chat (une annonce sujette à caution qui s'est attiré les foudres du responsable d'un projet concurrent dont l'intelligence se limite à celle du rat). La performance serait remarquable mais à remettre en perspective : les supercalculateurs sont pourtant en passe d'égaler le nombre d'opérations à la seconde dont est capable un cerveau humain. Le problème est à la fois structurel et logistique : nous comprenons encore trop peu le fonctionnement du cerveau humain, c'est pourquoi IBM a également lancé une initiative de cartographie détaillée de notre matière grise afin de mieux en appréhender le fonctionnement. D'autre part, certains chercheurs estiment que le développement d'une intelligence artificielle nécessite le même bain de stimulation sensorielle dont les êtres vivants bénéficient.
L'ordinateur comprend ce qu'il voit
Concernant ce dernier point, la reconnaissance visuelle fait précisément des progrès sidérants. Jusqu'ici les ordinateurs étaient aptes à détecter un mouvement par le biais d'une caméra, ou à reconnaître certaines formes simples prédéterminées. C'est notamment par ce biais que la reconnaissance de caractères s'est développée.
Désormais, les ordinateurs sont non seulement capables de reconnaître des visages humains (comme la fonction dédiée à cet effet dans iPhoto), mais également leur état émotionnel en fonction de leur expression. Apple a notamment déposé un brevet dans ce sens (voir notre article Apple brevette du motion tracking, dans lequel vous pourrez également trouver quelques exemples pratiques en vidéo). Dans le domaine de la surveillance vidéo, il leur est possible d'observer les interactions entre différentes personnes, et de déterminer si une bagarre a lieu.
Il existe également des moteurs de recherche graphiques, dans le sens où ils sont capables de reconnaître le contenu d'une image plutôt que de se baser sur sa description. C'est le cas de la fonction Images Similaires de Google Image, ou encore du moteur TinEye qui vous ramènera toutes les images similaires à celle que vous lui fournissez et qu'il aura pu trouver sur le net. On commence à voir apparaître également des moteurs de recherche d'images basés sur leur contenu, comme Tiltomo ou Alipr.
Ce sont des moteurs semblables qui permettent par exemple à l'application Amazon pour iPhone de retrouver les caractéristiques d'un objet donné à partir d'une simple photo de celui-ci.
L'interprétation du traitement des données
D'autres outils exploitent les bases de données d'images et la recherche de forme, telle cette impressionnante démonstration d'universitaires chinois permettant de constituer son propre photomontage automatiquement à l'aide de mots clés et de formes sommaires (voir notre article Du photomontage automagique).
D'autres encore, comme Photosynth de Microsoft, permettent d'exploiter le geotagging des photos trouvées sur Flickr pour les replacer dans un contexte tridimensionnel, voire pour reconstituer en nuages de points la géométrie des monuments les plus photographiés. Toujours chez Microsoft, le projet Natal a fait couler beaucoup d'encre lors de sa présentation : une caméra vidéo couplée à un capteur infrarouge permet d'interpréter en temps réel les mouvements des joueurs sans le moindre harnachement (voir notre article Microsoft veut enterrer la manette), quoique nombre de démonstrations faites lors de la présentation soient sujettes à caution, comme la démonstration de Milo par Peter Molyneux. De même, si Google propose aujourd'hui aux utilisateurs de son service de cartographie de modéliser eux-mêmes les bâtiments en 3D (voir notre article Building Maker : le nouveau jeu de construction de Google), tôt ou tard les photos aériennes seront couplées à Google Street View pour reconstituer les bâtiments en 3D automatiquement.
Une représentation virtuelle du monde réel
Si jusqu'ici il était possible aux ordinateurs de constituer une représentation en 3D sommaire de leur environnement à l'aide de deux caméras, comme c'est le cas des rovers envoyés sur Mars par la NASA, en leur offrant une vision binoculaire comme la nôtre, on arrive désormais à des résultats équivalents avec une seule caméra, voire une seule image fixe. Ainsi, l'université de Stanford a mis au point un logiciel capable de faire une estimation en 3D à partir d'une simple photo, reproduisant en cela certaines connexions synaptiques dédiées à cette même tâche dans le cerveau humain.
Un autre universitaire de Cambridge est arrivé à un résultat plus impressionnant encore : il suffit de montrer un objet sous toutes ses coutures à une seule caméra pour que non seulement son logiciel en reconstitue un modèle tridimensionnel en temps réel, mais qu'il soit en plus capable de le "tracker" dans l'espace instantanément.
Cette dernière capacité permet de transformer n'importe quel objet en marqueur fiduciaire pour la réalité augmentée, de loin la méthode la plus précise pour ce type d'applications (voir notre article L'iPhone 3GS augmentera la réalité). De même, le système permet de faire une "copie virtuelle" de tout objet pour l'intégrer dans une représentation en réalité augmentée. Un tel système ouvre tant de perspectives qu'il est difficile de mesurer l'étendue de toutes les applications pratiques, à commencer par des interfaces homme-machine basées sur des objets réels qu'on manipulerait pour donner diverses instructions à l'ordinateur. Initialement le créateur de ProForma, Qi Pan, avait pour projet de "virtualiser" des scènes extérieures, mais a fini par réaliser que la tâche était trop lourde à réaliser en temps réel pour le matériel actuel. Il s'est donc rabattu sur cette solution de modélisation d'objets, mais n'espérez pas qu'une telle technologie soit rapidement disponible pour les appareils mobile. L'universitaire projette de distribuer une démonstration pour Windows et Linux d'ici quelques mois.
On le voit, en cumulant bases de données en ligne, cloud computing, reconnaissance visuelle, interprétation des données, et réalité augmentée, on voit arriver l'émergence d'une fusion du monde réel et du monde virtuel, d'une zone encore mal définie qui serait à l'intersection des deux mondes, autrefois hermétiques l'un à l'autre. Alors que l'iPhone a mis Internet dans la rue, il nous devient de plus en plus facile de numériser notre environnement.
Les dernières estimations prédisent que l'ordinateur parviendra à égaler l'intelligence humaine d'ici un demi-siècle, mais pour l'heure nous ne sommes pas même capables de reproduire l'intelligence d'un nourrisson.
Tout au plus, la dernière annonce tonitruante d'IBM dans ce domaine de recherche, prétend-t-elle égaler celle d'un chat (une annonce sujette à caution qui s'est attiré les foudres du responsable d'un projet concurrent dont l'intelligence se limite à celle du rat). La performance serait remarquable mais à remettre en perspective : les supercalculateurs sont pourtant en passe d'égaler le nombre d'opérations à la seconde dont est capable un cerveau humain. Le problème est à la fois structurel et logistique : nous comprenons encore trop peu le fonctionnement du cerveau humain, c'est pourquoi IBM a également lancé une initiative de cartographie détaillée de notre matière grise afin de mieux en appréhender le fonctionnement. D'autre part, certains chercheurs estiment que le développement d'une intelligence artificielle nécessite le même bain de stimulation sensorielle dont les êtres vivants bénéficient.
L'ordinateur comprend ce qu'il voit
Concernant ce dernier point, la reconnaissance visuelle fait précisément des progrès sidérants. Jusqu'ici les ordinateurs étaient aptes à détecter un mouvement par le biais d'une caméra, ou à reconnaître certaines formes simples prédéterminées. C'est notamment par ce biais que la reconnaissance de caractères s'est développée.
Désormais, les ordinateurs sont non seulement capables de reconnaître des visages humains (comme la fonction dédiée à cet effet dans iPhoto), mais également leur état émotionnel en fonction de leur expression. Apple a notamment déposé un brevet dans ce sens (voir notre article Apple brevette du motion tracking, dans lequel vous pourrez également trouver quelques exemples pratiques en vidéo). Dans le domaine de la surveillance vidéo, il leur est possible d'observer les interactions entre différentes personnes, et de déterminer si une bagarre a lieu.
Il existe également des moteurs de recherche graphiques, dans le sens où ils sont capables de reconnaître le contenu d'une image plutôt que de se baser sur sa description. C'est le cas de la fonction Images Similaires de Google Image, ou encore du moteur TinEye qui vous ramènera toutes les images similaires à celle que vous lui fournissez et qu'il aura pu trouver sur le net. On commence à voir apparaître également des moteurs de recherche d'images basés sur leur contenu, comme Tiltomo ou Alipr.
Ce sont des moteurs semblables qui permettent par exemple à l'application Amazon pour iPhone de retrouver les caractéristiques d'un objet donné à partir d'une simple photo de celui-ci.
L'interprétation du traitement des données
D'autres outils exploitent les bases de données d'images et la recherche de forme, telle cette impressionnante démonstration d'universitaires chinois permettant de constituer son propre photomontage automatiquement à l'aide de mots clés et de formes sommaires (voir notre article Du photomontage automagique).
D'autres encore, comme Photosynth de Microsoft, permettent d'exploiter le geotagging des photos trouvées sur Flickr pour les replacer dans un contexte tridimensionnel, voire pour reconstituer en nuages de points la géométrie des monuments les plus photographiés. Toujours chez Microsoft, le projet Natal a fait couler beaucoup d'encre lors de sa présentation : une caméra vidéo couplée à un capteur infrarouge permet d'interpréter en temps réel les mouvements des joueurs sans le moindre harnachement (voir notre article Microsoft veut enterrer la manette), quoique nombre de démonstrations faites lors de la présentation soient sujettes à caution, comme la démonstration de Milo par Peter Molyneux. De même, si Google propose aujourd'hui aux utilisateurs de son service de cartographie de modéliser eux-mêmes les bâtiments en 3D (voir notre article Building Maker : le nouveau jeu de construction de Google), tôt ou tard les photos aériennes seront couplées à Google Street View pour reconstituer les bâtiments en 3D automatiquement.
Une représentation virtuelle du monde réel
Si jusqu'ici il était possible aux ordinateurs de constituer une représentation en 3D sommaire de leur environnement à l'aide de deux caméras, comme c'est le cas des rovers envoyés sur Mars par la NASA, en leur offrant une vision binoculaire comme la nôtre, on arrive désormais à des résultats équivalents avec une seule caméra, voire une seule image fixe. Ainsi, l'université de Stanford a mis au point un logiciel capable de faire une estimation en 3D à partir d'une simple photo, reproduisant en cela certaines connexions synaptiques dédiées à cette même tâche dans le cerveau humain.
Un autre universitaire de Cambridge est arrivé à un résultat plus impressionnant encore : il suffit de montrer un objet sous toutes ses coutures à une seule caméra pour que non seulement son logiciel en reconstitue un modèle tridimensionnel en temps réel, mais qu'il soit en plus capable de le "tracker" dans l'espace instantanément.
Cette dernière capacité permet de transformer n'importe quel objet en marqueur fiduciaire pour la réalité augmentée, de loin la méthode la plus précise pour ce type d'applications (voir notre article L'iPhone 3GS augmentera la réalité). De même, le système permet de faire une "copie virtuelle" de tout objet pour l'intégrer dans une représentation en réalité augmentée. Un tel système ouvre tant de perspectives qu'il est difficile de mesurer l'étendue de toutes les applications pratiques, à commencer par des interfaces homme-machine basées sur des objets réels qu'on manipulerait pour donner diverses instructions à l'ordinateur. Initialement le créateur de ProForma, Qi Pan, avait pour projet de "virtualiser" des scènes extérieures, mais a fini par réaliser que la tâche était trop lourde à réaliser en temps réel pour le matériel actuel. Il s'est donc rabattu sur cette solution de modélisation d'objets, mais n'espérez pas qu'une telle technologie soit rapidement disponible pour les appareils mobile. L'universitaire projette de distribuer une démonstration pour Windows et Linux d'ici quelques mois.
On le voit, en cumulant bases de données en ligne, cloud computing, reconnaissance visuelle, interprétation des données, et réalité augmentée, on voit arriver l'émergence d'une fusion du monde réel et du monde virtuel, d'une zone encore mal définie qui serait à l'intersection des deux mondes, autrefois hermétiques l'un à l'autre. Alors que l'iPhone a mis Internet dans la rue, il nous devient de plus en plus facile de numériser notre environnement.