Logiciel Centre de Contacts VoiceXML - Réversibilité sur site ou ondemand - Offre Multicanal _ Téléphonie sur IP - Web Call Back - Email entrant - chat écrit - Reconnaissance vocale et SVI serveur vocal
Non, ce n'est pas le futur. Loin des voix aiguës et robotiques des
premiers balbutiements de la synthèse vocale, les technologies de
synthèse et reconnaissance vocale sont désormais en phase d’adoption
par le marché. Ces technologies sont particulièrement performantes
lorsqu'elles sont intégrées avec le système d'informations.
Fonctions
Synthèse vocale
La synthèse vocale ou TTS (Text-to-Speech) permet de restituer des
phrases (voix) à partir du texte. Le texte peut provenir d'une base de
données, ainsi la restitution des sons est différentes en fonction de
l'auditeur. La synthèse vocale est couramment utilisé dans des portails
vocaux dynamique : solde de compte, annonce de délai de livraison, etc.
Reconnaissance vocale
La reconnaissance vocale ou ASR (Automatic Speech Recognition) est une
technologie de transcription d'un système phonatoire organique
exploitable par une machine. La reconnaissance vocale couplée à des
méthodes de synthèse vocale, de commande vocale, d'identification
vocale, et de compréhension forme un élément d'une interface
homme-machine idéale (10 fois plus de quantité d'information qu'avec
une saisie clavier, confort...).
Si la synthèse de la parole (TTS - Text To Speech) ne nécessite pas
forcément la reconnaissance vocale (ASR), l’inverse n’est pas vrai. En
effet dans le cadre d’un discours Homme/Machine avec reconnaissance
vocale : il est très important de disposer des ressources de synthèse
qui se complètent.
Ecoutez un exemple de dialogue vocal 2.0
Avantages
Le niveau de performance de ces modules est tel que l'on parle désormais du vocal 2.0. Voici les principaux avantages :
"Navigation sans clavier" à l'aide de la voix
Rapidité : mise en relation plus rapide
Innovation de la relation client
Simplicité d'accès à l'information : grâce à l'apport du langage naturel
Routage plus pertinent vers les bonnes compétences métiers
Efficacité : les informations collectées sont nettement plus nombreuses
Modernité & Souplesse : langage homme-machine intelligent pour une navigation plus naturelle
Comment se déroule un projet de reconnaissance vocale ?
Un projet avec reconnaissance vocale se déroule en 4 phases principales :
1. Audit de l'existant vocal (SVI, centre d'appels), de l'intégration
potentielle avec le web : ergonomie vocale, écriture du scénario,
spécification détaillée du service, scénario de passage en DTMF
15% de la durée du projet
2. Conseil - Ergonomie vocale : Il s'agit de décrire les différents
dialogues en intégrant le langage naturel dans le discours homme /
SVI.
Une des grossières erreurs dans le passé consistait à remplacer l'appui
d'une touche par mot clé, comme par exemple "dites SOLDE ou bien
appuyez sur la touche 23 (NDLR: si vous la trouvez) pour accéder aux
solde de votre compte"
35% de la durée du projet
3. Développement - Prototype
Création des grammaires et des pages VXML, scénario, messages sonores de confirmation.
15% de la durée du projet
4. Analyse - Tuning
Ecoute des conversations humaines avec le SVI pour améliorer la
conversation phonétique par le moteur de reconnaissance vocale. Phase
permettant d'améliorer le taux de reconnaissance vocale (jusqu'à 80% de
succès).
20% de la durée du projet
Le cœur d’une application vocale en langage naturel est la grammaire.
Une grammaire pour un moteur de synthèse vocale permet de traduire les
différentes façon de prononcer un mot.
Le client appelle une agence de voyage.
[SVI] : « Bonjour, et bienvenue chez SibiloTour » --> pré-décroché avec un prompt sonore fixe
[SVI] : « en quoi puis-je vous être agréable, » [TTS] « Eric, appelez-vous pour savoir si le billet d’avion que vous avez commandé hier vous a été expédié ? »
[Client] : « oui » -->[traitement ASR]
[TTS] « il a été posté, hier, à l’adresse suivante : 12 rue Victor Hugo, à Paris, dans le 15ème »
[TTS] « Vous passez 2 nuits à Paris, vous n'avez pas réservé
d’hôtel, voulez-vous que Mathilde ou une autre personne disponible pour
ce faire ? »
[Client] : « non, je souhaite modifier mes billets, s’il vous plait » -->[traitement ASR]
[TTS] « Vous voulez changer votre billet, est ce bien cela ? »
[Client] : « oui » -->[traitement ASR]
[TTS] « Ne coupez pas, je vais vous passer Mathilde dans moins
d’un minute. Puis-je me permettre de vous proposer de la musique ou des
informations pour écourter cette attente ?»
[Client] : « du jazz, s’il vous plait » -->[traitement ASR]
Sibilo Voice, serveur vocal d'App-line, s'interface avec les leaders des moteurs de synthèse vocale de reconnaissance vocale.
Le principe de fonctionnement
Synthèse vocale (TTS) : le serveur vocal envoit un texte (liste
de mots, phrase) au serveur de synthèse vocale, ce dernier lui retourne
un flux audio qu'il enverra sur le téléphone du client. Aujourd'hui les
moteurs de synthèse vocale sont de plus en plus évolués, ils permettent
entre autres de changer de voie (voie masculine ou féminine), de
changer l'intonation, la vitesse d'élocution. Il est également possible
de mixer la voix avec de la musique.
Reconnaissance vocale (ASR) : le principe est inversé, le
serveur vocal envoit du son au moteur de reconnaissance vocale, avec
une grammaire des mots à reconnaître, en retour le moteur d'ASR indique
au SVI que la personne a prononcé ou pas les mots de la grammaire, il
quantifie même la justesse de la reconnaissance soit 77% pour le mot
"Bateau".
Il y a de cela quelques années encore, l'utilisation des serveurs de
TTS ou d'ASR avec les SVIs nécessitait une fusion des produits en un
seul. Cela avait pour conséquence de complexifier le développement de
scénarii vocaux d'allonger les temps de développement. Aujourd'hui, les
SVIs et les serveurs de TTS et d'ASR fonctionnent sur des machines
séparées et dialoguent grâce au protocole MRCP, ainsi les temps de
développement sont diminués par un facteur de plus de 10.
Bien entendu Sibilo Voice utilise le protocole MRCP et ainsi il peut
fonctionner avec la pluspart des marques de moteurs de synthèse et de
reconnaissance vocale. 4 grands acteurs sont très présents en Europe
et leurs moteurs sont opérationnels avec le SVI de d'App-line.
Certaines marques ont à la fois un moteur de synthèse et de
reconnaissance vocale d'autres n'ont qu'un seul des 2 produits.