DIVES - Détection et Interprétation d’événements dans des Vastes Ensembles de Signaux bio-acoustiques

Publié le
Equipe
Date de début de thèse (si connue)
01/10/2024
Lieu
Lannion
Unité de recherche
IRISA - UMR 6074
Description du sujet de la thèse
Contexte et enjeux 

L'équipe CIRCÉ (Communication Intra-/Inter espèces, Relation, Cognition, Émotions) du laboratoire EthoS (UMR 6552 - Ethologie animale et humaine) et l'équipe EXPRESSION (Expressiveness in Human Centered Data/Media) de l'IRISA ont débuté en juin 2023 une collaboration sur la détection et la classification d'événements sonores émis par des chevaux. Ces derniers sont équipés de microphones permettant de capter différents événements sonores liés à leur comportement (hennissement, ébrouement, etc.) dans différents environnements (box en écurie, extérieur). Dans ce contexte, les travaux de classification permettent aux chercheurs en éthologie de repérer dans le continuum sonore les évènements qui peuvent s'y produire,  puis d'observer les scènes liées à ces événements et d'étudier ainsi le bien être du sujet observé en fonction de ce qui se passe dans ces situations.

Cette première étude pilote sur les chevaux a permis de mettre en place la collaboration et de s'assurer de la faisabilité méthodologique de la thèse proposée ici. L'objectif de la thèse va bien plus loin que la collaboration initiale. En effet, le principal objectif va être de rechercher des méthodes permettant de s’adapter à différents types de contenus acoustiques massifs à partir d’enregistrements réalisés en continu, 24 heures sur 24, 7 jours sur 7, sur des animaux équipés des loggers embarqués munis de capteurs (enregistreur audio et accéléromètre). Il s’agira de développer des méthodes de classification versatiles en mettant en oeuvre des méthodologies de type classification non ou faiblement supervisée, ainsi que d’évaluer la capacité de transfert de connaissances d’un modèle à un autre sur des données éthologiques.

L'idée sous-jacente est que le développement de telles méthodes permettra de répondre à des questions jusqu'alors hors de portée. À cette fin, l'équipe réunit les compétences nécessaires en IA et en éthologie et dispose de données vocales massives sur le nouveau né humain, sur les chevaux et sur les guépards. D'autres bases de données pourront également être collectées pour la thèse sur d'autres modèles plus adaptés à certaines questions : dauphins, primates non-humains.

Problématique scientifique abordée

En couplant les expertises en bioacoustique et en intelligence artificielle (IA) de nos deux équipes de recherche, nous allons pouvoir répondre à des questions éthologiques qui ne peuvent pas être abordées avec les méthodes traditionnelles de cette discipline. L'IA permet d’analyser des données acoustiques massives à partir d’enregistrements réalisés en continu, 24 heures sur 24, 7 jours sur 7, sur des animaux équipés des loggers embarqués munis de capteurs (enregistreur audio et accéléromètre).  L’extraction et la classification automatique des sons, couplée aux données d'accélérométrie et à des observations directes ciblées, permettra de répondre à trois grandes questions :

  • Est-ce que l'analyse quantitative et qualitative des sons émis, aussi bien vocaux que non vocaux (soupirs par exemple), peuvent permettre d’identifier des rythmes biologiques comportementaux en lien avec des changements d’émotions et de motivations d’individus qui ne peuvent pas s'exprimer verbalement ?
  • Que font les animaux à des moments où ils ne sont pas observables : quand ils sont loin de l’expérimentateur humain (liberté ou semi-liberté), quand ils se déplacent sous l’eau, ou quand il fait nuit ?
  • Comment sont gérées les rencontres sociales de proximité sur le plan de la communication vocale, notamment chez des animaux où les interactions sont rares ou difficilement quantifiables par observations directes ? En analysant des données, au sein d’un même groupe, issues de plusieurs membres équipés de loggers nous pourrons ainsi tenter de mieux comprendre le fonctionnement social de certaines espèces encore peu ou partiellement étudiées.

Les vocalisations sont connues, de part leurs fréquences d’émission et leurs structures acoustiques, pour refléter l’état interne de l’animal aussi bien en termes de niveau d’excitation que de valence émotionnelle. Les vocalisations sont également de bons marqueurs d’événements sociaux collectifs récurrents (chorus matinaux, pré-alimentation ou pré-sommeil). La structure temporelle des séquences vocales (chevauchement, tour de parole, délai de réponse, répétition, combinaison) permet aussi de décrire comment les interactions sociales dyadiques sont gérées au sein des groupes, avec une flexibilité liée au contexte (niveau de compétition) ou au statut social des partenaires (degré d’affinité). Tous ces éléments font des vocalisations des candidats pertinents pour les questions que nous posons dans cette thèse. Néanmoins, à ce jour, les études éthologiques se contentent pour la plupart d’analyser des fenêtres temporelles courtes et ciblées, avec un biais parfois lié à la présence humaine, et sont essentiellement centrées sur les activités diurnes. Cela limite grandement les connaissances que nous avons sur de nombreuses espèces qui ont une vie en partie nocturne ou qui interagissent et vocalisent peu. 
Nous possédons déjà plusieurs jeux de données massifs avec des animaux enregistrés en continue chez les guépards, les chevaux et les nouveau-nés humains. D’autres bases de données seront construites pour la thèse sur d’autres modèles comme les dauphins et les primates non-humains. Ainsi, nous aurons accès à des structures acoustiques et à des environnements de vie très divers afin de mettre à l’épreuve les développements méthodologiques en intelligence artificielle. Ces différents modèles de mammifères se justifient aussi au regard de la diversité des questions posées. Les dauphins et les primates non-humains sont des animaux qu’il n’est pas toujours possible d’observer sur de longues périodes en raison de leur mode de locomotion (subaquatique, arboricole), de leurs distances de déplacement ou de la faible visibilité de leurs habitats, ils ont toutefois une vie sociale et des répertoires vocaux parmi les plus complexes du règne animal. Les guépards sont plus discrets et peu vocaux avec pourtant un répertoire vocal diversifié et des liens sociaux forts (entre mâles, entre mère et jeunes) ; ils ont de plus, comme les dauphins et certains primates, une vie partiellement nocturne. Les nouveaux nés humains présentent l’intérêt de faire partie des êtres non verbaux mais très vocaux. A ce jour, seuls les pleurs des bébés sont étudiés bien qu’ils émettent dès les premiers jours de vie une grande diversité de sons qui semblent encoder l’état interne des émetteurs, comme c’est le cas pour les chevaux.

L'objectif du projet de thèse que nous déposons est alors d'explorer différentes techniques de machine learning pour la détection de ces événements dans un premier temps, puis de classification pour étiqueter automatiquement les événements au sein d'enregistrements massifs (plusieurs dizaines de milliers d'heures). Nous pensons qu'un parallèle avec les approches de Traitement Automatique des Langues (TAL) et de la Parole, dont nous avons l'expertise au sein de l'équipe, peut être fait. Cependant, la thèse devra vérifier l'efficacité de ces approches lorsqu'il s'agit de traiter des données éthologiques, ainsi que la pertinence des représentations obtenues, lesquelles doivent permettre de répondre aux questions posées ci-dessus.

 

Bibliographie

[ADH+20] Vanessa André, Virginie Durier, Severine Henry, Fouad Nassur, Jacques Sizun, Martine Hausber- ger, and Alban Lemasson. The vocal repertoire of preterm infants : Characteristics and possible applications. Infant Behavior and Development, 60 :101463, 2020.

[BLC+ 22] Hélène Bouchet, Alban Lemasson, Katie Collier, Laurie Marker, Anne Schmidt-Küntzel, Becky Johnston, and Martine Hausberger. Early life experience and sex influence acoustic repertoire use in wild-born, but hand-reared, captive cheetahs (acinonyx jubatus). Developmental Psycho- biology, 64(7) :e22309, 2022.

[Bri12] Elodie F Briefer. Vocal expression of emotions in mammals : mechanisms of production and evidence. Journal of Zoology, 288(1) :1–20, 2012.

[BZMA20] Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli. wav2vec 2.0 : A fra- mework for self-supervised learning of speech representations. In H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin, editors, Advances in Neural Information Processing Sys- tems, volume 33, pages 12449–12460. Curran Associates, Inc., 2020.

[GCG21] Yuan Gong, Yu-An Chung, and James Glass. AST : Audio Spectrogram Transformer. In Proc. Interspeech 2021, pages 571–575, 2021.

[GLCG22] Yuan Gong, Cheng-I Lai, Yu-An Chung, and James Glass. Ssast : Self-supervised audio spectro- gram transformer. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 36, pages 10699–10709, 2022.

[HBT+ 21] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, and Abdelrahman Mohamed. Hubert : Self-supervised speech representation learning by masked prediction of hidden units, 2021.

[LLBH17] Alice Lima, Alban Lemasson, Martin Boye, and Martine Hausberger. Vocal activities reflect the temporal distribution of bottlenose dolphin social and non-social activity in a zoological park. Zoo biology, 36(6) :351–359, 2017.

[LRRZ12] Alban Lemasson, Kevin Remeuf, Arnaud Rossard, and Elke Zimmermann. Cross-taxa similarities in affect-induced changes of vocal behavior and voice in arboreal monkeys. 2012.

[PLL20] Loïc Pougnault, Florence Levréro, and Alban Lemasson. Conversation among primate species. The Origins of Language Revisited : Differentiation from Music and the Emergence of Neurodi- versity and Autism, pages 73–96, 2020.

[SH97] Charles T Snowdon and Martine Hausberger. Social influences on vocal development. Cambridge University Press, 1997.

[SLC+ 18] Mathilde Stomp, Maël Leroux, Marjorie Cellier, Séverine Henry, Alban Lemasson, and Mar- tine Hausberger. An unexpected acoustic indicator of positive emotions in horses. PloS one, 13(7) :e0197898, 2018.

[WLW+22] Luyu Wang, Pauline Luc,Yan Wu, Adria Recasens, Lucas Smaira, Andrew Brock, Andrew Jaegle, Jean-Baptiste Alayrac, Sander Dieleman, Joao Carreira, et al. Towards learning universal audio representations. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 4593–4597. IEEE, 2022.

[ZLFM22] Yixiao Zhang, Baihua Li, Hui Fang, and Qinggang Meng. Spectrogram transformers for audio classification. In 2022 IEEE International Conference on Imaging Systems and Techniques (IST), pages 1–6. IEEE, 2022.

[ZY22] Yu Zhang and Qiang Yang. A survey on multi-task learning. IEEE Transactions on Knowledge and Data Engineering, 34(12) :5586–5609, 2022.

Liste des encadrants et encadrantes de thèse

Nom, Prénom
LOLIVE, Damien
Type d'encadrement
Directeur.trice de thèse
Unité de recherche
IRISA - UMR 6074
Equipe

Nom, Prénom
LEMASSON, Alban
Type d'encadrement
2e co-directeur.trice (facultatif)
Unité de recherche
ETHOS - UMR 6552

Nom, Prénom
DELHAY-LORRAIN, Arnaud
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA - UMR 6074
Equipe

Nom, Prénom
BARREAUD, Vincent
Type d'encadrement
Co-encadrant.e
Unité de recherche
IRISA - UMR 6074
Equipe
Contact·s
Nom
LOLIVE, Damien
Email
damien.lolive@irisa.fr
Nom
DELHAY-LORRAIN, Arnaud
Email
arnaud.delhay@irisa.fr
Mots-clés
Classification automatique, deep-learning, événements sonores, datasets massifs, éthologie