Ouvrir le menu principal

MacGeneration

Recherche

Les Français de Gladia planchent sur une version plus fiable et plus rapide de Whisper

Félix Cattafesta

jeudi 22 juin 2023 à 14:45 • 7

Services

Gladia est une startup française qui propose une API de transcription audio tout juste sortie d'alpha, accessible à tous mais visant principalement un public professionnel. Elle repose sur une version perfectionnée de Whisper, le moteur d'OpenAI qui se base sur les intelligences artificielles pour améliorer la rapidité et la qualité du travail par rapport aux méthodes habituelles. TechCrunch a pu discuter avec un de ses fondateurs pour savoir quelles améliorations avaient été apportées sous le capot.

Image : Gladia.

Jean-Louis Quéguiner explique qu'un des problèmes de Whisper est qu'il a parfois tendance à « halluciner » certaines parties de la transcription. Le moteur a notamment été entraîné sur de nombreuses vidéos YouTube, où il a pu entendre de milliers de fois certaines phrases comme « N'hésitez pas à vous abonner ». Mathématiquement, il a donc plus de chance de « l'entendre » lorsqu'on lui demande une transcription et de la glisser quelque part dans le texte.

Gladia vise à résoudre ce problème, et utilise des algorithmes de prétraitement et de post-traitement afin d'améliorer les résultats. La version de Whisper utilisée a été affinée à l'aide de 3,5 millions d'heures de son professionnel pour s'accommoder à plus de sujets et d'accents.

L'idée est de faire mieux que la version classique de Whisper, dont les résultats sont déjà bluffants. Son fondateur explique avoir beaucoup investi pour améliorer la vitesse de la transcription, et propose différents services complémentaires. Son API permet par exemple de rapidement traduire un résultat dans une autre langue, ce qui sera pratique pour une entreprise souhaitant obtenir des sous-titres multilingues pour une vidéo. Elle peut identifier lorsqu'il y a plusieurs locuteurs, détecter les langages et passer d'un dialecte à l'autre si nécessaire. Gladia ajoute également automatiquement la ponctuation et la casse à ses transcriptions.

L'API peut être essayée gratuitement sur le site officiel de Gladia. Il lui aura fallu 25 secondes pour transcrire un petit reportage de trois minutes et demie, là où Aiko a demandé environ trois minutes à mon MacBook Air M1 (et a inventé des remerciements à la fin). À l'avenir, l'entreprise explique vouloir proposer de nouvelles fonctionnalités, comme un classement du contenu par thématique ou encore un système de chapitrage. Actuellement, Gladia met en avant 4 types d'utilisations sur son site : les créateurs du web, les utilisateurs de visioconférence, les centres d'appels et les entreprises.

Les prix de Gladia sont abordables par rapport à ce qui se fait sur le marché. Une formule gratuite permet de bénéficier de 10 h de transcription, et les pros seront facturés environ 1 centime de dollar la minute. En comparaison, Microsoft demande au moins 1 $ par heure, et plus en ajoutant des options. Reste à voir si Gladia continuera de se démarquer sur le long terme face à une concurrence qui va sans doute s'intensifier.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Pour le producteur de La Maison, « Apple est la pire boîte marketing de l’univers »

00:08

• 25


Upscaling vidéo et restauration photo plus rapides sur Mac/PC : VideoProc AI mis à jour est à - 62 % 📍

25/04/2025 à 17:44

• 0


Derniers jours Apple week à la Fnac : -10 % sur des MacBook Pro, iPhone 15 Pro à 16 Pro Max et iPad Pro M4

25/04/2025 à 16:00

• 6


dav1d, le décodeur AV1 le plus optimisé qu'Apple refuse d'utiliser

25/04/2025 à 14:00

• 4


Microsoft a conçu une publicité par IA et personne n’a rien vu

25/04/2025 à 13:45

• 22


Razer lance sa première souris ergonomique verticale face à Logitech

25/04/2025 à 12:15

• 9


Yahoo! veut acheter Chrome

25/04/2025 à 10:45

• 34


Slate veut repartir de zéro avec un pick-up électrique compact et épuré pour moins de 20 000 $

25/04/2025 à 10:00

• 100


iPadOS 19 verrait apparaître une barre de menus sur iPad

25/04/2025 à 09:24

• 47


Huit ans après DeX, Apple s’ouvrirait peu à peu à un bureau sur écran externe pour iOS 19

25/04/2025 à 09:23

• 48


John Giannandrea aurait aussi perdu l'équipe en charge de la robotique chez Apple

25/04/2025 à 07:39

• 10


Les procès antitrust contre les GAFAM se poursuivent aux USA, malgré les changements de présidence

24/04/2025 à 21:30

• 28


Prise en main de Supercharge, l’app à tout faire qui rend bien des services sur le Mac

24/04/2025 à 20:30

• 17


TSMC annonce la gravure en 1.4 nm, quand la Russie espère atteindre les 28 nm en 2030

24/04/2025 à 20:20

• 55


Données personnelles : comment Incogni supprime ce que les autres ne peuvent pas 📍

24/04/2025 à 18:17

• 0


Amazon va fêter ses 25 ans en France avec une semaine de promos du 30 avril au 6 mai

24/04/2025 à 17:30

• 18