EnglishFrançais
appelez-moi.png
 
Newsletter




Accueil arrow Solutions arrow SVI Sibilo Voice arrow Synthèse & Reconnaissance Vocale

Synthèse et reconnaissance vocale

Version imprimable

Serveur vocal

Non, ce n'est pas le futur. Loin des voix aiguës et robotiques des premiers balbutiements de la synthèse vocale,  les technologies de synthèse et reconnaissance vocale sont désormais en phase d’adoption par le marché. Ces technologies sont particulièrement performantes lorsqu'elles sont intégrées avec le système d'informations.

 

Fonctions des modules de synthèse et reconnaissance vocale

Synthèse vocale

La synthèse vocale ou TTS (Text-to-Speech) permet de restituer des phrases (voix) à partir du texte. Le texte peut provenir d'une base de données, ainsi la restitution des sons est différentes en fonction de l'auditeur. La synthèse vocale est couramment utilisé dans des portails vocaux dynamique : solde de compte, annonce de délai de livraison, etc.

Reconnaissance vocale

La reconnaissance vocale ou ASR (Automatic Speech Recognition) est une technologie de transcription d'un système phonatoire organique exploitable par une machine. La reconnaissance vocale couplée à des méthodes de synthèse vocale, de commande vocale, d'identification vocale, et de compréhension forme un élément d'une interface homme-machine idéale (10 fois plus de quantité d'information qu'avec une saisie clavier, confort...).

Si la synthèse de la parole (TTS - Text To Speech) ne nécessite pas forcément la reconnaissance vocale (ASR - Automatic Speech Recognition), l’inverse n’est pas vrai. En effet dans le cadre d’un discours Homme/Machine avec reconnaissance vocale : il est très important de disposer des ressources de synthèse qui se complètent.

 

Ecoutez un exemple de dialogue vocal 2.0

 

Avantages de la synthèse et reconnaissance vocale

Le niveau de performance de ces modules est tel que l'on parle désormais du vocal 2.0. Voici les principaux avantages :

  • "Navigation sans clavier" à l'aide de la voix 
  • Rapidité : mise en relation plus rapide
  • Innovation de la relation client
  • Simplicité d'accès à l'information : grâce à l'apport du langage naturel
  • Routage plus pertinent vers les bonnes compétences métiers
  • Efficacité : les informations collectées sont nettement plus nombreuses
  • Modernité & Souplesse : langage homme-machine intelligent pour une navigation plus naturelle

 

Comment se déroule un projet de reconnaissance vocale ?

Un projet avec reconnaissance vocale se déroule en 4 phases principales :

1. Audit de l'existant vocal (SVI, centre d'appels), de l'intégration potentielle avec le web : ergonomie vocale, écriture du scénario, spécification détaillée du service, scénario de passage en DTMF

15% de la durée du projet

2. Conseil - Ergonomie vocale : Il s'agit de décrire les différents dialogues en intégrant  le langage naturel dans le discours homme / SVI.

Une des grossières erreurs dans le passé consistait à remplacer l'appui d'une touche par mot clé, comme par exemple "dites SOLDE ou bien appuyez sur la touche 23 (NDLR: si vous la trouvez) pour accéder aux solde de votre compte"

35% de la durée du projet

3. Développement - Prototype

Création des grammaires et des pages VXML, scénario, messages sonores de confirmation.

15% de la durée du projet

4. Analyse - Tuning

Ecoute des conversations humaines avec le SVI pour améliorer la conversation phonétique par le moteur de reconnaissance vocale. Phase permettant d'améliorer le taux de reconnaissance vocale (jusqu'à 80% de succès).
20% de la durée du projet

Le cœur d’une application vocale en langage naturel est la grammaire. Une grammaire pour un moteur de synthèse vocale permet de traduire les différentes façon de prononcer un mot.top.gif


Exemple de dialogue avec un serveur vocal interactif (SVI)

 

Exemple d’un dialogue au sein d’un centre de contacts moderne :


Le client appelle une agence de voyage.
[SVI] : « Bonjour, et bienvenue chez SibiloTour » --> pré-décroché avec un prompt sonore fixe
[SVI] : « en quoi puis-je vous être agréable, » [TTS] « Eric, appelez-vous pour savoir si le billet d’avion que vous avez commandé hier vous a été expédié ? »
[Client] : « oui » -->[traitement ASR]
[TTS] « il a été posté, hier, à l’adresse suivante : 12 rue Victor Hugo, à Paris, dans le 15ème »
[TTS] « Vous passez 2 nuits à Paris, vous n'avez pas réservé d’hôtel, voulez-vous que Mathilde ou une autre personne disponible pour ce faire ? »
[Client] : « non, je souhaite modifier mes billets, s’il vous plait » -->[traitement ASR]
[TTS] « Vous voulez changer votre billet, est ce bien cela ? »
[Client] : « oui » -->[traitement ASR]
[TTS] « Ne coupez pas, je vais vous passer Mathilde dans moins d’un minute. Puis-je me permettre de vous proposer de la musique ou des informations pour écourter cette attente ?»
[Client] : « du jazz, s’il vous plait » -->[traitement ASR]

 

Technologie utilisée : MRCP

Sibilo Voice, serveur vocal d'App-line, s'interface avec les leaders des moteurs de synthèse vocale de reconnaissance vocale

 

Le principe de fonctionnement d'un serveur vocal avec synthèse et reconnaissance vocale

 

Principe de fonctionnement TTS et MRCP

Synthèse vocale (TTS) : le serveur vocal envoit un texte (liste de mots, phrase) au serveur de synthèse vocale, ce dernier lui retourne un flux audio qu'il enverra sur le téléphone du client. Aujourd'hui les moteurs de synthèse vocale sont de plus en plus évolués, ils permettent entre autres de changer de voie (voie masculine ou féminine), de changer l'intonation, la vitesse d'élocution. Il est également possible de mixer la voix avec de la musique.

 

 

 

 

Principe de fonctionnement ASR et MRCP

Reconnaissance vocale (ASR- Automatic Speech Recognition) : le principe est inversé, le serveur vocal envoit du son au moteur de reconnaissance vocale, avec une grammaire des mots à reconnaître, en retour le moteur d'ASR (Automatic Speech Recognition) indique au Serveur Vocal Interactif (SVI) que la personne a prononcé ou pas les mots de la grammaire, il quantifie même la justesse de la reconnaissance soit 77% pour le mot "Bateau".

 

 

 

 

 

 

Il y a de cela quelques années encore, l'utilisation des serveurs de TTS (Text Tto Speech) ou d'ASR (Automatic Speech Recognition) avec les SVI (Serveur Vocal Interactif) nécessitait une fusion des produits en un seul. Cela avait pour conséquence de complexifier le développement de scénarii vocaux d'allonger les temps de développement. Aujourd'hui, les SVIs et les serveurs de TTS et d'ASR fonctionnent sur des machines séparées et dialoguent grâce au protocole MRCP, ainsi les temps de développement sont diminués par un facteur de plus de 10.

 

Bien entendu Sibilo Voice utilise le protocole MRCP et ainsi il peut fonctionner avec la pluspart des marques de moteurs de synthèse et de reconnaissance vocale. 4 grands acteurs sont très présents en Europe et leurs moteurs sont opérationnels avec le Serveur Vocal Interactif d'App-line. Certaines marques ont à la fois un moteur de synthèse et de reconnaissance vocale d'autres n'ont qu'un seul des 2 produits.

 

 Marque compatible avec Sibilo Voice   TTS 
  ASR 

 acapella Synthèse vocale

   

 Loquendo TTS

   

 Nuance OSR

   

 Synthèse Baratinoo

   

 Telispeech Telisma

   

  top.gif