Logiciel Centre de Contacts VoiceXML - Réversibilité sur site ou ondemand - Offre Multicanal _ Téléphonie sur IP - Web Call Back - Email entrant - chat écrit - Reconnaissance vocale et SVI serveur vocal
Non, ce n'est pas le futur. Loin des voix aiguës et robotiques des premiers balbutiements de la synthèse vocale, les technologies de synthèse et reconnaissance vocale sont désormais en phase d’adoption par le marché. Ces technologies sont particulièrement performantes lorsqu'elles sont intégrées avec le système d'informations.
Fonctions des modules de synthèse et reconnaissance vocale
Synthèse vocale
La synthèse vocale ou TTS(Text-to-Speech) permet de restituer des phrases (voix) à partir du texte. Le texte peut provenir d'une base de données, ainsi la restitution des sons est différentes en fonction de l'auditeur. La synthèse vocale est couramment utilisé dans des portails vocaux dynamique : solde de compte, annonce de délai de livraison, etc.
Reconnaissance vocale
La reconnaissance vocale ou ASR (Automatic Speech Recognition) est une technologie de transcription d'un système phonatoire organique exploitable par une machine. La reconnaissance vocale couplée à des méthodes de synthèse vocale, de commande vocale, d'identification vocale, et de compréhension forme un élément d'une interface homme-machine idéale (10 fois plus de quantité d'information qu'avec une saisie clavier, confort...).
Si la synthèse de la parole (TTS - Text To Speech) ne nécessite pas forcément la reconnaissance vocale (ASR - Automatic Speech Recognition), l’inverse n’est pas vrai. En effet dans le cadre d’un discours Homme/Machine avec reconnaissance vocale : il est très important de disposer des ressources de synthèse qui se complètent.
Ecoutez un exemple de dialogue vocal 2.0
Avantages de la synthèse et reconnaissance vocale
Le niveau de performance de ces modules est tel que l'on parle désormais du vocal 2.0. Voici les principaux avantages :
"Navigation sans clavier" à l'aide de la voix
Rapidité : mise en relation plus rapide
Innovation de la relation client
Simplicité d'accès à l'information : grâce à l'apport du langage naturel
Routage plus pertinent vers les bonnes compétences métiers
Efficacité : les informations collectées sont nettement plus nombreuses
Modernité & Souplesse : langage homme-machine intelligent pour une navigation plus naturelle
Comment se déroule un projet de reconnaissance vocale ?
Un projet avec reconnaissance vocale se déroule en 4 phases principales :
1. Audit de l'existant vocal (SVI, centre d'appels), de l'intégration potentielle avec le web : ergonomie vocale, écriture du scénario, spécification détaillée du service, scénario de passage en DTMF
15% de la durée du projet
2. Conseil - Ergonomie vocale : Il s'agit de décrire les différents dialogues en intégrant le langage naturel dans le discours homme / SVI.
Une des grossières erreurs dans le passé consistait à remplacer l'appui d'une touche par mot clé, comme par exemple "dites SOLDE ou bien appuyez sur la touche 23 (NDLR: si vous la trouvez) pour accéder aux solde de votre compte"
35% de la durée du projet
3. Développement - Prototype
Création des grammaires et des pages VXML, scénario, messages sonores de confirmation.
15% de la durée du projet
4. Analyse - Tuning
Ecoute des conversations humaines avec le SVI pour améliorer la conversation phonétique par le moteur de reconnaissance vocale. Phase permettant d'améliorer le taux de reconnaissance vocale (jusqu'à 80% de succès).
20% de la durée du projet
Le cœur d’une application vocale en langage naturel est la grammaire. Une grammaire pour un moteur de synthèse vocale permet de traduire les différentes façon de prononcer un mot.
Exemple de dialogue avec un serveur vocal interactif (SVI)
Le client appelle une agence de voyage.
[SVI] : « Bonjour, et bienvenue chez SibiloTour » --> pré-décroché avec un prompt sonore fixe
[SVI] : « en quoi puis-je vous être agréable, » [TTS] « Eric, appelez-vous pour savoir si le billet d’avion que vous avez commandé hier vous a été expédié ? »
[Client] : « oui » -->[traitement ASR]
[TTS] « il a été posté, hier, à l’adresse suivante : 12 rue Victor Hugo, à Paris, dans le 15ème »
[TTS] « Vous passez 2 nuits à Paris, vous n'avez pas réservé d’hôtel, voulez-vous que Mathilde ou une autre personne disponible pour ce faire ? »
[Client] : « non, je souhaite modifier mes billets, s’il vous plait » -->[traitement ASR]
[TTS] « Vous voulez changer votre billet, est ce bien cela ? »
[Client] : « oui » -->[traitement ASR]
[TTS] « Ne coupez pas, je vais vous passer Mathilde dans moins d’un minute. Puis-je me permettre de vous proposer de la musique ou des informations pour écourter cette attente ?»
[Client] : « du jazz, s’il vous plait » -->[traitement ASR]
Sibilo Voice, serveur vocal d'App-line, s'interface avec les leaders des moteurs de synthèse vocale de reconnaissance vocale.
Le principe de fonctionnement d'un serveur vocal avec synthèse et reconnaissance vocale
Synthèse vocale (TTS) : le serveur vocal envoit un texte (liste de mots, phrase) au serveur de synthèse vocale, ce dernier lui retourne un flux audio qu'il enverra sur le téléphone du client. Aujourd'hui les moteurs de synthèse vocale sont de plus en plus évolués, ils permettent entre autres de changer de voie (voie masculine ou féminine), de changer l'intonation, la vitesse d'élocution. Il est également possible de mixer la voix avec de la musique.
Reconnaissance vocale (ASR- Automatic Speech Recognition) : le principe est inversé, le serveur vocal envoit du son au moteur de reconnaissance vocale, avec une grammaire des mots à reconnaître, en retour le moteur d'ASR (Automatic Speech Recognition) indique au Serveur Vocal Interactif (SVI) que la personne a prononcé ou pas les mots de la grammaire, il quantifie même la justesse de la reconnaissance soit 77% pour le mot "Bateau".
Il y a de cela quelques années encore, l'utilisation des serveurs de TTS (Text Tto Speech) ou d'ASR (Automatic Speech Recognition) avec les SVI (Serveur Vocal Interactif) nécessitait une fusion des produits en un seul. Cela avait pour conséquence de complexifier le développement de scénarii vocaux d'allonger les temps de développement. Aujourd'hui, les SVIs et les serveurs de TTS et d'ASR fonctionnent sur des machines séparées et dialoguent grâce au protocole MRCP, ainsi les temps de développement sont diminués par un facteur de plus de 10.
Bien entendu Sibilo Voice utilise le protocole MRCP et ainsi il peut fonctionner avec la pluspart des marques de moteurs de synthèse et de reconnaissance vocale. 4 grands acteurs sont très présents en Europe et leurs moteurs sont opérationnels avec le Serveur Vocal Interactif d'App-line. Certaines marques ont à la fois un moteur de synthèse et de reconnaissance vocale d'autres n'ont qu'un seul des 2 produits.