L’histoire est décidément un éternel recommencement. Au début des années 2000, iListen était capable de transcrire un enregistrement audio en fichier texte grâce à un « TranscriptionPak » optionnel. En abandonnant le moteur de Philips pour celui de Nuance et le nom d’iListen pour celui de Dictate, le logiciel de reconnaissance vocale de MacSpeech a perdu cette fonction, unique sur Mac, en 2008.
Elle est toutefois revenue deux ans plus tard, quoique sous la forme d’un nouveau logiciel, Scribe… pour n’être que mieux abandonné quelques mois plus tard, à la faveur de l’acquisition de MacSpeech par Nuance. Depuis, la société américaine s’est surtout attachée à intégrer à Dictate les fonctions de son cousin sur PC, un chantier pour l’essentiel terminé.
Ne restait qu’une chose à faire : redonner à Dictate son pouvoir de transcrire un enregistrement audio en fichier texte. C’est justement la principale nouveauté de Dragon Dictate 4, qui est aussi censé mieux s’intégrer à OS X et être plus rapide. De quoi amener Dragon Dictate pour Mac au niveau de Dragon NaturallySpeaking pour PC ? La réponse dans notre test.
De la reconnaissance vocale sous stéroïdes
À l’époque où il portait encore le nom de MacSpeech, Dictate était déjà un excellent logiciel de reconnaissance vocale. Il s’est amélioré de version en version, pour corriger tous les défauts encore présents. Presque tous, du moins : si les recherches en matière d’intelligence artificielle ont fait des progrès fabuleux, les logiciels de reconnaissance vocale demeurent incapables de comprendre le sens d’une phrase, ni même celui d’un mot.
De fait, ils travaillent à partir des plus petites unités discrètes, les phonèmes : s’ils sont incapables de les capter avec précision, tout espoir de reconnaissance est vain. C’est pourquoi MacSpeech et Nuance imposaient le port de micro-casques spécifiques, chargés de fournir au logiciel un signal sonore de la meilleure qualité possible, ou du moins aux défauts préalablement identifiés. Ce n’est plus le cas : s’il ne faut pas espérer se passer totalement d’un micro-casque, on peut désormais utiliser Dragon Dictate sans peine avec de simples EarPods d'iPhone.
Reste que certains phonèmes se distinguent en plusieurs allophones qui peuvent se confondre selon l’accent ou l’élocution (père peut se prononcer [pɛr], [pɛʀ] ou [pɛʁ]), et qu’une même suite de phonèmes peut correspondre à des mots différents (/pɛʁ/ peut donner père, perd, pair ou paire). Les différentes possibilités sont donc comparées à un dictionnaire de 150 000 mots à l’échelle du mot, et à un corpus de cooccurrences à l’échelle de la phrase. La proposition retenue est celle qui obtient le plus grand degré de confiance, c’est-à-dire celle qui est la plus à même de correspondre à une phrase correcte.
Cette opération n’est pas aussi rapide que l’on pourrait le vouloir, si bien que l’on perd le fil de son propos aussi bien en attendant la transcription pour la corriger si nécessaire, qu’en poursuivant la dictée en subissant les éventuelles erreurs. Or le logiciel n’est jamais aussi précis que lorsqu’on lui fournit des phrases complètes : il faut un petit temps pour s’adapter à son fonctionnement, un temps qu’il met lui-même à profit pour s’adapter à votre façon de parler. La transcription ne tarde pas à devenir à la fois très rapide et très précise — Dragon Dictate ne comprend pas le sens d’une phrase, mais c’est souvent tout comme.
Son orthographe laisse cependant à désirer : il laisse passer trop de fautes d’accord, n’est toujours pas capable de faire la différence entre ses et ces ou même sans et cent, et déteste les inversions syntaxiques. On peut facilement revenir sur un mot, et l’épeler au besoin, mais Dictate n’apprend toujours pas de ces corrections, contrairement à NaturallySpeaking. Il intègre heureusement un dictionnaire personnalisé, dans lequel on peut placer des néologismes, des noms propres ou des marques. Sans ce dictionnaire, la dictée d’un article de MacGeneration serait un véritable calvaire — « Mathematica » serait transcrit « mathématiques » et « iOS » ou « OS X » seraient mal capitalisés ou complètement compris de travers.
Et François Mitterrand utilisa Dragon Dictate
Et ce n’est pas le seul domaine dans lequel Dictate est en retard par rapport à NaturallySpeaking. Le contrôle de la position du curseur demeure par exemple un point de frustration extrême. Dans TextEdit, Word 2011 et Pages 4.3, il suffit de dire « Sélectionne “ou des noms de produits” » pour revenir instantanément à « ou des noms de produits » et ainsi corriger/remplacer le texte (« ou des marques ») ou lui appliquer une mise en forme (« en italique »). Dans toutes les autres applications, dont la nouvelle version de Pages, on voit le curseur se déplacer de caractère en caractère jusqu’à ce que le logiciel trouve le bon extrait… on a plus vite fait de saisir le clavier et la souris.
Pourtant, Dictate est censé permettre de s’en passer : il intègre des commandes permettant de piloter à la voix le Finder, Safari, Mail, Messages, Notes, Rappels, Calendrier et TextEdit. On peut en ajouter pour d’autres applications, voire les lier à des macros textuelles (« blabla » pour insérer une signature avec une formule de politesse), des processus Automator ou des scripts Shell ou AppleScript (« insère un lien Safari » pour convoquer un script insérant un lien complet vers la page en cours dans Safari). Nuance est allé jusqu’à développer une extension permettant de piloter Gmail dans Safari… mais elle a la fâcheuse tendance de faire planter le navigateur.
Dictate est cependant en avance sur NaturallySpeaking en ce qui concerne la transcription de fichiers audio, qui fait donc son grand retour. Si vous avez utilisé MacSpeech Scribe, vous retrouverez rapidement vos marques : Nuance l’a tout simplement intégré à Dictate, sans même modifier son fonctionnement (simple) ou ses capacités (très convaincantes). La transcription fonctionne de manière assez similaire à la reconnaissance : on commence par créer un profil spécifique, puis on fournit à Dictate le fichier audio (MP3, AIFF, WAV ou MP4) que l’on souhaite transcrire.
Le logiciel en transcrit les 60 premières secondes, puis vous demande de corriger les éventuelles erreurs. Il est ensuite capable de poursuivre le reste de la transcription : à condition que le fichier audio soit de bonne qualité, le résultat est excellent. Dans nos essais, Dictate a eu beaucoup de mal à se départir d’un fichier enregistré à l’aide d’un iPhone placé à 1,50 mètre de l'interlocuteur ; il s’en est beaucoup mieux sorti avec un podcast enregistré avec un micro Blue Snowball et un discours de François Mitterrand. Nuance recommande d’utiliser un dictaphone, de préférence un Philips Digital Voice Tracer.
La transcription pose cependant deux problèmes majeurs. D’abord, le profil est adapté à une seule voix : il est donc impossible de parfaitement transcrire les deux côtés d’une conversation, encore moins une conversation de groupe. Ensuite, Dictate n’essaye même pas de placer des rudiments de ponctuation selon l’intonation : le texte est fourni brut, sans la moindre virgule ni le moindre point. Cet outil fournit moins une transcription complète qu’une base à partir de laquelle travailler — mais bon sang que cette base est de bonne qualité !
C’est mieux, mais c’est encore mieux sur PC
Certes, OS X et iOS intègrent une fonction de reconnaissance vocale, d’ailleurs en partie fournie par Nuance. Mais Dragon Dictate est plus rapide que la dictée en ligne et plus précis que la dictée hors ligne. Il donne véritablement l’impression d’apprendre de votre voix, et permet de contrôler quasiment l’intégralité du Mac sans jamais toucher le clavier ni la souris. C’est une solution incontournable pour ceux qui souffrent de troubles musculosquelettiques ou de handicaps moteurs, d’autant plus incontournable qu’elle ne cesse de s’améliorer.
Le retour de la fonction de transcription est bienvenu, même s’il s'est fait attendre. Celle-ci est suffisamment rapide et précise pour intéresser les journalistes et les étudiants, auxquels elle fera gagner un temps précieux à défaut de faire le travail à leur place. C’est un avantage clair de Dragon Dictate sur son cousin Dragon NaturallySpeaking… mais c’est aussi le seul. Et c’est là que le bât blesse : encore aujourd’hui, Dictate n’en fait pas beaucoup plus et beaucoup mieux que NaturallySpeaking Home, qui coûte près de deux fois moins cher. NaturallySpeaking Premium coûte le même prix, mais fonctionne mieux dans un plus grand nombre d’applications.
On pensait cette époque terminée, mais Nuance n’a visiblement pas eu le mémo et continue de faire payer plus pour moins de fonctions, ce que d’aucuns qualifieraient de véritable « taxe Mac ». Dragon Dictate coûte 149 €, et c’est là son principal défaut — du moins tant qu’il ne sera pas tout à fait à la hauteur de ses équivalents PC.