Logo   Information, Signal, Images et ViSion C.N.R.S.   GdR   M.E.S.R.

 / Accueil / Kiosque 

Liste des Thésards

[Référencement Thèse en Cours]
Retour
Seuls les thèsards enregistrés dans la base depuis moins de trois ans sont listés. Vous pouvez cependant faire une recherche sur la totalité des thèsards.
Modèle génératif de l'expressivité dans la parole
BELLER Grégory - greg_beller@ircam.fr
Thèse débutée en 2005 sous la direction de Xavier Rodet
Laboratoire : IRCAM
WWW : http://recherche.ircam.fr/equipes/analyse-synthese/beller
Sujet de thèse : Etude et modèle génératif de l'expressivité : Application en synthèse de la parole



La capacité d'exprimer et d'identifier des émotions, des intentions ou des attitudes par la modulation de caractéristiques de la voix est fondamentale dans la communication humaine. Elle coordonne, en particulier, les interactions sociales avec les bébés, ainsi que des jeux de langue (donnant la rétroaction, réclamant l'attention). Il semble bien que tous ces aspects maîtrisés ou non de la prononciation d'une phrase recouvrent plus d'une catégorie. Pour désigner cet ensemble, nous utiliserons dans la suite le terme d' « expressivité » tout en sachant qu'il faudra bien distinguer ces catégories. Les émotions par exemple ont quelques effets mécaniques sur la physiologie, comme la modulation de la fréquence cardiaque ou la sécheresse dans la bouche, qui ont à leur tour des effets sur l'intonation de la voix. Ainsi il est, en principe, possible d'extraire l'information émotive d'une phrase à partir de ses caractéristiques acoustiques, dont sa prosodie.

Dans le domaine artistique, de nombreux compositeurs ( Emmanuel Nunes, Jonathan Harvey, Alain Bonardi… ) et metteurs en scène ( Jean-François Perret… ) s'intéressent aujourd'hui aux multiples possibilités que pourrait fournir un système d'analyse, de transformation et de synthèse de l' expressivité dans la voix parlée. C'est le but que cette thèse se propose d'atteindre.

Selon ( Picard 97 ) les émotions primaires concernées sont définies par des catégories discrètes (approche évolutionniste), automatiques, universelles, jouant un rôle dans la survie reliées au système limbique: peur, colère, joie, tristesse, dégoût, surprise (expectative, acceptation). D'autres auteurs citent : « anger, despair, disgust, doubt, exaltation, fear, irritation, joy, neutral, pain, sadness, serenity, surprise and worry » ( Devillers, 2003 ). Chaque catégorie comporte des descripteurs continus sur deux ou trois dimensions ( Schlossberg, 1954 ):
- positif/négatif, agréable/désagréable (évaluation)
- puissance/impuissance, tension/relaxation (puissance)
- activation/calme (activité)

D'apès ( Oudeyer, 2002 ), à l'opposé de la reconnaissance automatique des émotions par l'expression faciale ( Samal and Iyengar, 1992 ), les recherches sur la voix parlée sont encore très jeunes ( Bosh, 2000 ). Les premières études ( Murray and Arnott, 1993 ; Williams and Stevens, 1972 ) n'avaient pas pour but de réaliser un système de reconnaissance efficace, mais plutôt de rechercher des corrélats qualitatifs généraux entre les paramètres acoustiques de la voix et les émotions qu'elle exprime ( Lieberman and Michaels, 1962 ). Par exemple, la joie tend à faire augmenter la moyenne de la fréquence fondamentale.

Plus récemment, le besoin industriel d'un langage computationnel affectif ( Picard, 1997 ) pousse la recherche à mettre en oeuvre des systèmes performants dans la reconnaissance des émotions ( Bosh, 2000 ). On peut citer entre autres applications :
- Amélioration des systèmes de génération de parole à partir de texte,
- Agents assistants :
° Adaptation au profil et état émotionnel d‘utilisateur
° Apprendre à ne pas gêner !
- E-mail expressif,
- Systèmes d‘exploitation, interfaces ,
- Internet, bases d'images (mémorisation, stockage, récupération),
- Systèmes d'aide à l'enseignement, personnages animés, jeux,
- Compréhension et thérapie des troubles cognitifs (autisme),
- Robots (seuls, en groupe, ou en interaction avec humains),
- Applications artisitiques et aux spectacles.

Un certain nombre de travaux sont consacrés à l'étude des émotions, de l' expressivité . Par exemple, le sujet de la thèse de C. Clavel est : « Analyse et détection des manifestations acoustiques d'états émotionnels liés à la peur » ( Vasilescu, 2004 ). On peut aussi citer des projets Européens, tels que EmoTV1, Amities Project, le réseau (Noe) HUMAINE (« Theories and Models of Emotion »), SpeechEmotion 2000, etc. Notons que le projet HUMAINE s'intéresse à l' expressivité dans le contenu audio et visuel, à l'analyse des gestes expressifs et à la performance artistique interactive, « Interactive Artistic Performance Testbed », en particulier dans la danse (« as artistic expression of human movement »).

Enjeu de la thèse

L'un des buts de cette thèse est de comprendre la façon dont l' expressivité se traduit par la modulation de la prosodie et des caractéristiques acoustiques de la voix en général, mais se distingue nettement des recherches citées ci-dessus. L'enjeu proposé sera, entre autres de répondre aux besoins des compositeurs et metteurs en scène pour le théâtre, le cinéma, la télévision et le multimédia en général. Il s'agit de pouvoir faire « prononcer » un texte par un générateur de parole avec la possibilité pour l'utilisateur d'indiquer et d'obtenir l'expressivité qu'il souhaite. Toutes proportions gardées, c'est ce qu'apporte l'interprétation d'un acteur à la prononciation d'un texte.

U n synthétiseur vocal par sélection d'unités est en cours de développement à l'Ircam pour les applications artistiques mentionnée précédemment ( Beller, 2004a ). Dans un stage de maîtrise, l'utilisation de patrons prosodiques réels a été étudiée et appliquée avec succès ( Beller, 2004b ). La parole ainsi générée est intelligible et naturelle grâce à la concaténation de ces patrons prosodiques réels. Ce projet est continué en stage de MASTER-2. Aujourd'hui, nous souhaitons développer, plus avant, la part émotive et l' expressivité de l'intonation et des caractéristiques acoustiques dans notre modèle. L'intérêt de la méthode est la création, l'utilisation et l'adaptation d'outils dédiés à la parole et pouvant être exploités à des fins musicales et artistiques ( Beller, 2004a ).

Plan de travail

La première partie consiste à étendre une base de données (initiée en stage de MASTER-2) par l'enregistrement d'acteurs récitant un texte avec des expressivités définies, en chambre anéchoïque. Puis à extraire les paramètres acoustiques de ces signaux grâce aux outils développés à l'IRCAM (segmentation temporelle, trajectoires de formants, flux et barycentre spectraux, etc.). On essayera d'analyser le substrat préverbal propre à l'expression acoustique des émotions ( Auchlin et Simon, 2004 ) .

Une fois la base de données réalisée, une deuxième phase consistera en l'analyse automatique de celle-ci grâce à des algorithmes de classification de données. Jusqu'ici, de nombreux travaux utilisent des réseaux de neurones ( Pereira, 1998 ). Nous proposons d'implémenter plusieurs algorithmes d'extraction de données :

• Apprentissage supervisé : Support Vector Machines, réseaux de neurones, arbres de décision.

• Apprentissage non-supervisé : Mixture gaussienne, Réseau Bayésien.

Ceci nous permettra d'extraire du corpus les meilleures corrélations de paramètres acoustiques relevant de telles ou telles émotions. Ce travail a déjà été esquissé ( Oudeyer, 2002 ) mais pour l'anglais seulement. Rien de comparable ne semble à ce jour avoir été réalisé dans le cas du français parlé.

Enfin, la dernière partie de la thèse consistera en l'implémentation d'un modèle établi sur ces résultats permettant la synthèse de parole émotive par sélection d'unités et la synthèse de patrons prosodiques (dénués du contexte sémantique). Ce modèle sera validé qualitativement par des tests perceptifs qui auront lieu au laboratoire d'audition de l'ENS Ulm sous la direction du Dr. D. Pressnitzer. Des tests psycho-acoustiques seront organisés afin de fournir des données pour des analyses de réduction de dimentionnalité (ACP, SVD, LDA, etc.). Il permettra aussi de valider la base de données.

Le premier aboutissement de la thèse est une meilleure connaissance objective des corrélations entre l' expressivité dans la parole et ses descripteurs acoustiques. Le deuxième est la conception et la validation d'un modèle génératif de l' expressivité orienté vers le multimédia et la création artistique. Enfin une application permettra de synthétiser de la parole expressive à partir de descripteurs de haut niveau, relatifs aux catégories discrètes décrites précédemment. Une implémentation en temps réel est envisagée.

Références

1. Auchlin, A., Simon, A. -C., 2004. Gabarits prosodiques, empathie(s) et attitudes, Cahiers de l'Institut de Linguistique de Louvain 30, 1-3, 181-206.
2. Beller, G., 2004a. La musicalité de la voix parlée, mémoire de maîtrise de musique, Paris VIII.
3. Beller, G., 2004b. Talkapillar : un synthétiseur vocal par sélection d'unités , rapport de stage, IRCAM.
4. Bosh, L.T., 2000. Emotions: what is possible in the ASR framework? Proceedings of the ISCA Workshop on Speech and Emotion .
5. Jusl in, P. N., & Laukka, P., 2003. Communication of emotions in vocal expression and music performance: Different channels, same code? Psychological Bulletin, 129 (5), 770-814.
6. Lacheret-Dujour, A., & Beaugendre, F., 1999. La prosodie de français . Paris: Editions du CNRS.
7. Lee, C., Narayanan, S., & Pieraccini, R., 2002. Combining acoustic and language information for emotion recognition. Proceedings of ICSLP .
8. Lee, C., Narayanan, S., and Pieraccini, R., 2002. Recognition of negative emotions from the speech signal. Proceedings of Automatic Speech Recognition and Understanding .
9. Lieberman, P., & Michaels, S. B., 1962. Some aspects of fundamental frequency and envelope amplitude as related to the emotional content of speech. Journal of the Acoustical Society of America, 34 (7), 922-927.
10. Litman, D., & Forbes, K., 2003. Recognizing emotions from student speech in tutoring dialogues. Proceedings of the IEEE Automatic Speech Recognition and Understanding Workshop ASRU
11. Litman, D., Forbes, K., & Silliman, S., 2003. Towards emotion prediction in spoken tutoring dialogues. Proceedings of the Human Language Technology Conference: 3rd Meeting of the North American Chapter of the Association for Computational Linguistics (HLT/NAACL) .
12. Morel, M., & Bänziger, T., 2004. Le rôle de l'intonation dans la communication vocale des émotions : test par la synthèse. Cahiers de l'Institut de Linguistique de Louvain (CILL), 30 ,
13. 207-232.
14. Murray, E., Arnott, J.L., 1995. Implementation and testing of a system for producing emotion-by-rule in synthetic speech. Int. J. Speech Communication 16 (4), 369–390.
15. Oudeyer, P-Y., 2002. The production and recognition of emotions in speech: features and algorithms, International Journal of Human Computer Interaction .
16. Pereira , C. , Watson, C., 1998. Some acoustic characteristics of emotion. In Proceedings of the Fifth InternationalConferenceon Spoken LanguageProcessing. Sydney
17. Picard, R., 1997. Affective Computing. MIT Press , Cambridge, MA.
18. Samal, A., Iyengar, P., 1992. Automatic recognition and analysis of human faces and facial expression: a survey. Pattern Recognition 25 (1), 65–77.
19. Scherer, K. R., 1989. Vocal correlates of emotion. In H. Wagner & A. Manstead (Eds.), Handbook of psychophysiology: Emotion and social behavior (pp. 165-197). London: Wiley.
20. Schlossberg, H., 1954. Three dimensions of emotion. Psychological Review, 61 , 81-88.
21. Vasilescu, I., Devillers, L., Clavel, C., Ehrette, 2004. Base de données de fiction pour la détection d'émotion dans des situations anormales", Interspeech-2004 , 2277-2280.
22. Vasilescu, I., Devillers, L., 2003. LREC 2004, Speech prosody 2004, ICPhS 2003
23. Williams, U., Stevens, K.N., 1972. Emotions and speech: some acoustical correlates. JASA 52, 1238–1250.

© GdR ISIS - Contact