a. La RAP est une technologie qui permet d’analyser la voix humaine dans une logique d’amélioration continue grâce à des techniques d’apprentissage automatique. La Reconnaissance automatique de la Parole, communément présente dans les médias sous le nom de reconnaissance vocale, est une technique qui permet d’analyser la voix humaine captée au moyen d’un microphone pour la transcrire sous la forme d’un texte ou d’un fichier exploitable.
Cette technique s’est développée dès les années 1950 au sein des laboratoires de Bell et connait aujourd’hui une croissance importante du fait du recours de plus en plus prégnant aux systèmes embarqués. Elle permet notamment de réaliser des dictées ou encore des commandes vocales à des objets connectés. Aujourd’hui, les meilleurs logiciels qui permettent une reconnaissance de la voix avoisinent les 90% de fiabilité dans la retranscription et des solutions complémentaires comme la traduction ou la création de sous-titre pour une vidéo, sont proposés.
Le fonctionnement de la RAP est le suivant : lorsqu’une personne parle, elle émet des ondes acoustiques. Ces ondes sont captées et numérisées par un micro. Lorsque les ondes sont numérisées, un traitement acoustique peut être appliqué dessus, il permettra d’extraire un signal analysable. Ces derniers sont analysés et comparés avec ceux déjà stockés dans la mémoire (le modèle de langage) de la machine utilisée. Le texte qui apparait en sortie correspond au texte le plus probable, le plus cohérent possible par rapport à l’apprentissage du moteur de reconnaissance de la machine.
Au-delà de ces usages, la RAP permet une libération de l’usage des mains contrairement à l’écran et laisse l’utilisateur libre de ses mouvements. C’est notamment une des raisons pour laquelle elle est utilisée dans la gestion de messageries, de la commande de machines ou de robots à distance, la dictée vocale, dans l’avionique, ou encore dans le domaine médical pour permettre aux médecins de remplir des dossiers médicaux en temps réel et à la voix. Elle est aussi utilisée de façon plus ludique pour les maisons connectées.

b. La transcription (speech to text)
Il s’agit d’une application de l’IA mobilisant le deep learning pour développer une capacité à restituer une conversation. Pour cette tâche, les résultats de l’IA témoigneraient d’une capacité au moins égale aux transcripteurs professionnels, si ce n’est supérieur, à retranscrire un texte. Toutefois, au même titre que l’humain, ce genre de programme ne reconnait pas intégralement tous les termes qu’on lui demande de retranscrire. Son taux d’erreur dans cet exercice avoisine les 5 %1 pour la solution développée par les équipes de Microsoft.
Les tentatives d’améliorations des performances sont toujours en cours. Le but est d’apporter toujours plus de compréhension du texte, en améliorant par exemple la reconnaissance des sens des mots (sémantique).
c. Traduction automatique en temps réel
Les résultats du développement de l’IA, appliquée au domaine de la traduction automatique, sont de plus en plus satisfaisants.
La traduction automatique est bien connue de tous avec par exemple Google Traduction. Grâce à lui, on peut avoir accès à un texte traduit de bonne qualité, mais pas parfait. Il peut aussi traduire des sites pendant qu’on navigue dessus.
A noter l’existence d’un outil textuel gratuit d’utilisation, DeepL, d’excellente qualité mais limité en nombre de langues. Créé par une équipe de Linguee, qui est propriétaire d’une base de traduction open source.
Il est également possible de trouver des outils de traduction automatique dit adaptative, c’est-à-dire un traducteur qui possède son propre moteur de TA. Contrairement au TA classique, le moteur qui permet au traducteur automatique adaptatif de fonctionner est basé sur l’auto-apprentissage en temps réel. Toutes les modifications sont alors effectuées instantanément dans le texte, rendant l’analyse personnalisée.
La traduction vocale en temps réel (TA), ou « speech-to-speech translation », fait appel aux dernières avancées en termes de deep learning. Afin de traduire un échange oral d’une langue à une autre, 3 étapes sont nécessaires :
• La reconnaissance vocale permet de transcrire le discours oral en texte écrit (voir la RAP).
• La traduction automatique permet de traduire la transcription dans la langue cible.
• La synthèse de la parole transforme la traduction écrite en discours oral.
A titre d’exemple, Skype s’est lancé dans le TA avec sa solution Skype Translator, disponible en 7 langues différentes, qui permet d’assurer la traduction de conversations vocales en temps réel. Microsoft Translate et Google Traduction apparaissent également comme des leaders sur ce marché, dominé par les GAFAMI, avec plus de 80 langues.