|
Le W3C, le consortium en charge du développement des standards du Web a publié, le 14 octobre dernier, PLS (Pronounciation Lexicon Specification) 1.0 en tant que recommandation.
Cette nouvelle recommandation vient, après plus de deux ans de
développements, étoffer la famille des standards liés aux technologies
vocales, parmi lesquels on trouve, entre autres, VoiceXML, CCXML, SSML,
SRGS et SISR.
Cette recommandation concerne les domaines de la reconnaissance et de
la synthèse vocale, elles s'intéresse plus spécifiquement aux liens
entre les mots, la façon de les écrire et la façon de les prononcer.
Son objectif est d'améliorer les performances des moteurs de
reconnaissance et de synthèse vocale, en permettant au travers d'un langage standard de type XML, de spécifier un référentiel commun de prononciations.
La possibilité de référencer des lexiques depuis des grammaires de
reconnaissance vocale ou encore un texte à synthétiser était déjà
présente mais il n'y avait jusqu'alors aucun formalisme commun et
standardisé pour décrire ces lexiques. Ceci en interdisait la
ré-utilisation d'un moteur à l'autre (qu'il soit de synthèse ou de
reconnaissance).
Ainsi PLS permet de prendre en charge :
- Les prononciations différentes d'un même mot (homographes). Ex. : les poules couvent au couvent.
- La
possibilité de définir différentes orthographes pour un même mot. Ces
différences pouvant être mineures et porter sur des mots apparentés
(Par ex. clé et clef), ou extrêmement importantes comme, la
transcription d'un même mot dans des alphabets complètement différents
(courant dans certaines langues asiatiques).
- La
prononciation de mots « étrangers » au sein d'une langue. Par exemple,
la prononciation correcte d'un mot ou groupe de mots anglais au sein
d'un texte en français : les news sont arrivées.
- La
prise en compte des mots qui s'entendent de la même façon (homophones)
mais qui s'écrivent différemment et ont des significations différentes.
Par ex. Les mûres sont mures le long des murs. (R. Desnos)
A l'échelle de la reconnaissance vocale, PLS permet de spécifier des prononciations alternatives d'un même mot, afin de :
- Tenir compte par exemple de la disparité des locuteurs (accents régionaux, utilisateurs de langue étrangère).
- Autoriser une phonémisation précise des acronymes et abréviations.
- Étendre
la phonémisation proposée par défaut par les moteurs de reconnaissance,
par exemple pour les noms propres ou le vocabulaire spécifique d'un
domaine.
L'usage des mêmes lexiques par des moteurs de synthèse et de
reconnaissance vocale permet des « échanges » bidirectionnels entre les
deux technologies et de les rendre inter-opérables.
En effet, les nuances de prononciation décelées dans les projets de
reconnaissance permettent d'enrichir un lexique qui est ensuite
ré-utilisable par les moteurs de synthèse.
De même, si la prononciation d'un mot par un moteur de synthèse est
jugée correcte par un humain, celle-ci viendra naturellement enrichir
les lexiques utilisés pour la reconnaissance vocale et étendre les
possibilités et les performances de celle-ci.
Enfin, les fichiers PLS seront réutilisables dans plusieurs pages
VoiceXML ce qui permettra de raccourcir les délais de création des
scenariis vocaux.
Il est à noter dans le communiqué de
presse officiel que 85% des portails vocaux utilise le standard
VoiceXML 2.0 du W3C. Pour mémoire : dès 2002, App-line a une vision
technologique Sibilo Voice est l'un des premiers SVI VoiceXML
développé, bien avant la validation de la version 2 au printemps 2004.
Par Stéphane Benteux
Directeur R&D d'App-line
|