Revue TELECOM 194 - La parole à Télécom Paris Une recherche et une formation au coeur des problématiques actuelles par Gaël Richard (1990) et Chloé Clavel (2003)
LA PAROLE A TÉLÉCOM PARIS
Une recherche et une formation au coeur des problématiques actuelles
Les signaux de parole et de musique sont un type de données disponibles en masse sur le web. Leur analyse est une étape primordiale à l'indexation, qui permet ensuite aux sites de réseaux sociaux d'organiser, d'agréger ces contenus. Les données de parole jouent également un rôle central dans les applications dites de speech analytics et d'interaction humain-machine. Ces dernières applications incluent non seulement les enceintes connectées (ex : Google Home, Alexa d’Amazon) mais aussi la robotique sociale. A l’évidence, la parole est aussi une modalité incontournable de communication, et l’amélioration de la qualité et de l’intelligibilité du signal de parole dans des environnements bruités est toujours un enjeu actuel du traitement de la parole.
Les applications du domaine et les enjeux associés sont nombreux avec le développement des agents virtuels pour la gestion de la relation client et l’émergence d’assistants virtuels (Alexa d’Amazon, Siri d’Apple, Cortana de Microsoft, etc.). Si les assistants virtuels proposés par ces entreprises sont déjà commercialisés, la prise en compte de la composante sociale de l’interaction vocale reste un enjeu crucial pour la fluidité et le naturel de l’interaction. Une autre application de la prise en compte des comportements socio-émotionnels dans l’interaction-humain-agent est celle des Serious Games pour lesquelles l’utilisateur peut s’entraîner avec un agent virtuel à faire face à différentes situations. Par exemple, dans le cadre des travaux portés par Chloé Clavel (2003), enseignante, chercheuse et responsable du thème Social Computing à Télécom-Paris, nous travaillons sur une application où l’utilisateur peut s’entraîner à améliorer son comportement social lors d’entretiens d’embauche virtuels¹.
Nos partenaires sont multiples avec des entreprises travaillant pour le secteur des ressources humaines (easyrecrue), pour la gestion de la relation client (ex : EDF) ou encore dans la robotique (Softbank robotics). Depuis janvier 2018, nous sommes impliqués, pour une durée de quatre ans, dans le projet européen H2020 ANIMATAS² qui a pour but d’introduire des robots dotés de compétences sociales dans les écoles, afin d’assister l’équipe pédagogique. Nous travaillons sur l’analyse automatique des disfluences (par exemple, des hésitations, des mots ou phrases inachevées) comme signe de l’émotion ou du stress de l’enfant dans l’apprentissage, ou encore du degré de confiance qu’il a en ses compétences (Feeling of Knowledge) dans le cadre d’interactions avec d’autres enfants, le professeur ou encore le robot.
En ce qui concerne la qualité vocale, nous travaillons notamment avec notre partenaire PSA à améliorer l’intelligibilité des signaux de parole dans l’habitacle automobile. Le but de ces travaux portés à Télécom Paris par Gaël Richard, responsable du département Image Données Signal, est de transformer la parole provenant par exemple de la radio de telle sorte qu’elle soit plus intelligible pour les passagers malgré le bruit ambiant et ce sans augmenter le volume global de la parole. On s’inspire pour cela des transformations naturelles qu’une personne apporte à sa voix pour être mieux comprise de ses interlocuteurs lorsqu’elle est dans une ambiance fortement bruitée. Ces transformations sont couramment regroupées sous le terme d’effet “Lombard”, et c’est cet effet qu’on essaye de reproduire et d’amplifier³.
Télécom Paris forme ses futurs ingénieurs et chercheurs au traitement de la parole au sein de la filière Traitement du Signal et Intelligence Artificielle. Cette formation propose de parcourir, depuis les bases méthodologiques et théoriques jusqu'aux applications, les domaines du traitement de la parole et des signaux audio-fréquences.
Télécom Paris propose également une offre de formation continue au traitement de la parole que ce soit au sein de formation courte sur trois jours pour des entreprises4 ou dans le contexte d’une formation plus large en intelligence artificielle (CES IA5).
1/ L. Hemamou, G. Felhi, V. Vandenbussche, J.-C. Martin, C. Clavel, HireNet: a Hierarchical Attention Model for the Automatic Analysis of Asynchronous Video Job Interviews. in AAAI 2019 https://aaai.org/ojs/index.php/AAAI/article/view/3832
2/ https://blogrecherche.wp.imt.fr/2018/11/26/robots-assistants-pedagogiques/
3/ K. Nathwani, G. Richard, B. David, P. Prablanc, V. Roussarie, Speech Intelligibility Improvement in Car Noise Environment by Voice Transformation, Speech Communication, May 2017. https://perso.telecom-paristech.fr/grichard/Publications/2017-SpeechCom-Nathwani.pdf
4/ https://www.telecom-evolution.fr/fr/formations-courtes/traitement-de-la-parole
5/ https://www.telecom-evolution.fr/fr/formations-certifiantes/intelligence-artificielle
Biographie des auteurs
Gaël Richard (1990) est professeur à Télécom Paris et responsable du département Image, Données, Signal (IDS). Il mène ses recherches principalement dans le domaine de l’analyse et traitement statistique des signaux audio (parole, musique…) et notamment autour du développement de méthodes d’apprentissage statistique et d’intelligence artificielle appliquées aux signaux audio. Co-auteur de plus de 200 articles et co-inventeur de dix brevets, il est aussi membre « fellow » de l’IEEE.
http://perso.telecom-paris.fr/~grichard/.
Chloé Clavel (2003) est enseignante et chercheuse depuis 2013 à Télécom ParisTech au sein du Laboratoire de Traitement et Communication de l’Information (LTCI). Ses recherches contribuent au développement de méthodes issues de l’intelligence artificielle (apprentissage de modèles de comportements socio-émotionnels en combinant des méthodes symboliques et des méthodes issues de l’apprentissage automatique) et de l’informatique affective (analyse et synthèse de signaux socio-émotionnels) et s’intègrent dans un thème plus large celui du Social Computing qu’elle coordonne au sein du LTCI. Elle travaille actuellement sur les interactions entre humains et agents virtuels, de l’analyse du comportement socio-affectif (verbal et non-verbal) de l’utilisateur aux stratégies d’interaction socio-affectives. Elle a participé à plusieurs projets européens et nationaux collaboratifs autour du Social Computing (ex: H2020 ITN ANIMATAS, aria-valuspa UE-TIC, Labex smart). Elle a obtenu récemment un ANR Jeunes Chercheurs Jeunes Chercheuses sur les thématiques de l’analyse d’opinions dans les interactions (ANR MAOI).