Vous êtes ici

Caractérisation et génération de l'expressivité en fonction des styles de parole pour la construction de livres audio

(In english below)

Mot clés :  Informatique, Prosodie de la parole, Livres audio, Synthèse de la parole expressive, Apprentissage Automatique

Résumé:

Dans ces travaux de thèse nous abordons l'expressivité de la parole lue avec un type de données particulier qui sont les livres audio. Les livres audio sont  des enregistrements audio d’œuvres littéraires fait par des professionnels (des acteurs, des chanteurs, des narrateurs professionnels) ou par des amateurs. Ces enregistrements peuvent être destinés à un public particulier (aveugles ou personnes malvoyantes).  La disponibilité de ce genre de données en grande quantité avec une assez bonne qualité a attiré l'attention de la communauté scientifique en traitement automatique du langage et de la parole en général, ainsi que des chercheurs spécialisés dans la synthèse de parole expressive.

Pour explorer ce vaste champ d'investigation qui est l'expressivité, nous proposons dans cette thèse d'étudier trois entités élémentaires de l'expressivité qui sont véhiculées par les livres audio : l'émotion, les variations liées aux changements discursifs et les propriétés du locuteur.  Nous traitons ces patrons d'un point de vue prosodique. Les principales contributions de cette thèse sont la construction d'un corpus de livres audio comportant un nombre important d'enregistrements partiellement annotés par un expert, une étude quantitative caractérisant les émotions dans ce type de données, la construction de modèles basés sur des techniques d'apprentissage automatique pour l'annotation automatique de types de discours et enfin nous proposons une représentation  vectorielle de l'identité prosodique d'un locuteur dans le cadre de la synthèse statistique paramétrique de la parole.

 

*************************************

English Version

*************************************

 

Title: Characterisation and generation of expressivity in function of speaking styles for audiobook synthesis

 

Keywords: Computer Science, Speech Prosody, Audiobook, Expressive Speech Synthesis, Machine Learning

 

Abstract

In this thesis, we study the expressivity of read speech with a particular type of data, which are audiobooks. Audiobooks are audio recordings of literary works made by professionals (actors, singers, professional narrators) or by amateurs. These recordings may be intended for a particular audience (blind or visually impaired people).  The availability of this kind of data in large quantities with a good enough quality has attracted the attention of the research community in automatic speech and language processing in general and of researchers specialized in expressive speech synthesis systems.

We propose in this thesis to study three elementary entities of expressivity that are conveyed by audiobooks: emotion, variations related to discursive changes, and speaker properties.  We treat these patterns from a prosodic point of view. The main contributions of this thesis are:  the construction of a corpus of audiobooks with a large number of recordings partially annotated by an expert, a quantitative study characterizing the emotions in this type of data, the construction of a model based on automatic learning techniques for the automatic annotation of discourse types and finally we propose a vector representation of the prosodic identity of a speaker in the framework of parametric statistical speech synthesis.

Orateur: 
Aghilas SINI (EXPRESSION)
Date: 
Vendredi, 2. octobre 2020 - 9:00
Lieu: 
ENSSAT - LANNION - Salle Jacques Le Squin (020G) (diffusion en visio-conférence)
Type soutenance: 
Composition du Jury: 

Rapporteurs:

Yannick Esteve   Professeur à l’Université d’Avignon et des pays de Vaucluse
Anne-Catherine Simon  Professeure à l’Université Catholique de Louvain

Examinateurs :

Laurent Besacier  Professeur à l’Université Joseph Fourier
Sylvie Gibet          Professeure à l’Université de Bretagne Sud
Simon King          Professeur à l’Université d’Édimbourg

Directeur de thèse :

Damien Lolive   Maitre de Conférence-HDR à l’Université de Rennes 1,

Co-directeur de thèse :

Élisabeth Delais-Roussarie Directrice de recherche CNRS-Univérsité de Nantes


Présidente du jury  :

Sylvie Gibet          Professeure à l’Université de Bretagne Sud