Soutenance de thèse: Anais Chanclu

Soutenance de thèse: Anais Chanclu

Date : lundi 11 décembre 2023 à 14h30
Lieu : Salle des thèses sur le campus Hannah Arendt.
 
Titre : Reconnaître les personnes à leur voir : définition d’un cadre scientifique pour garantir la fiabilité des résultats d’une comparaison de voix dans le cadre criminalistique
 
Jury :
  • Jean-François Bonastre, Professeur, Avignon Université, Laboratoire Informatique d’Avignon (Directeur de thèse)
  • Martine Adda-Decker, Directrice de Recherche, Université Paris 3 Sorbonne Nouvelle et Laboratoire de Phonétique et Phonologie (Rapporteuse)
  • Julien Pinquier, Maître de Conférence, Université Toulouse III – Paul Sabatier, Institut de Recherche en Informatique de Toulouse (Rapporteur)
  • Christine Meunier, Directrice de Recherche, Laboratoire Parole et Langage, Aix-Marseille Université (Examinatrice)
Résumé :
Lors d’une enquête de police ou d’un procès pénal, il arrive que des enregistrements de voix soient prélevés en vue d’être comparés à la voix des personnes suspectes. Bien souvent, les enregistrements prélevés — appelés traces — proviennent d’écoutes téléphoniques, d’appels aux services de secours ou bien de messages vocaux. Les enregistrements des personnes suspectes — appelés pièces de comparaison — proviennent généralement des services de police notamment par prélèvement de voix. Du fait que les traces et pièces de comparaison n’ont pas été réalisées dans les mêmes conditions et que les conditions d’enregistrement de la trace sont souvent peu connues voire inconnues, la variabilité entre les enregistrements à comparer n’est pas quantifiable. De nombreux facteurs entrent en jeu et concernent aussi bien les fichiers audios à comparer, le contenu linguistique, l’environnement d’environnement que le(s) locuteur(s).
Les pratiques de comparaison de voix ont évolué à travers l’histoire sans pour autant qu’elles ne répondent à un cadre scientifique ainsi que préconisé par les normes Frye et Daubert. Cela a eu pour conséquence une mise en doute de la fiabilité des expertises vocales (affaire Trayvon Martin) d’une part ; et l’usage de pratiques fallacieuses (affaire Élodie Kulik) pouvant mener à des erreurs judiciaires d’autre part. De nos jours, le Service national de police scientifique (SNPS) et l’Institut de recherche criminelle de la Gendarmerie nationale (IRCGN) ont établi des protocoles qualité pour assurer que leurs expertises reposent sur la littérature scientifique. L’objectif de cette thèse est de définir un cadre scientifique où la fiabilité des résultats d’une comparaison de voix est connue. Pour ce faire, nous travaillons sur trois points : l’influence de certains facteurs sur la performance d’une comparaison de voix, la perception humaine de l’identité d’un locuteur, et la caractérisation des voix.
Le premier point que nous abordons est l’influence de certains facteurs sur la performance d’une comparaison de voix. Nous étudions ces facteurs individuellement puis en combinaison avec un autre facteur. Les résultats obtenus montrent que certains facteurs sont plus influents sur la performance que d’autres. Cependant, une variabilité s’applique au niveau des locuteurs. En effet, les facteurs étudiés n’affectent pas la performance de la même manière chez tous les locuteurs.
Dans un second temps, nous étudions la perception humaine des locuteurs. Pour cela, nous avons mis en place une expérience perceptive de regroupement d’enregistrements en locuteurs. Pour répondre à la tâche, nous avons défini une mesure de pureté du regroupement. Nous avons également comparé les résultats obtenus avec ceux d’une comparaison de voix automatique. Les résultats ont montré une disparité dans le regroupement en locuteurs notamment liée à la langue maternelle des auditeurs. L’approche automatique obtient de meilleurs résultats que les auditeurs.
Enfin, nous nous intéressons à la caractérisation des voix. Nous avons mis au point un nouveau système utilisant pour détecter le type de phonation, d’abord sur les voyelles pré-pausales, puis l’ensemble des phonèmes voisés. Ce nouveau système utilise PASE+ pour l’extraction de multiples paramètres et un perceptron multi-couches (MLP) pour la classification. Nous avons comparé ce système avec un système plus classique reposant sur l’extraction des Mel-Frequency Cepstral Coefficients (MFCC) et une machine à vecteurs de support (SVM) pour assurer la classification. Les résultats obtenus mettent en évidence la supériorité du système nouvellement créé face au système classique. La généralisation sur l’ensemble des phonèmes voisés a permis de montrer que les locutrices avaient plutôt une voix modale et les locuteurs plutôt une voix non modale.
De manière générale, cette thèse a permis de montrer que la comparaison de voix est un domaine complexe et que les résultats obtenus peuvent être influencés par de nombreux facteurs. La volonté de standardiser les pratiques de comparaison de voix requiert une connaissance approfondie de ces facteurs et de leur intrication. Cependant, dans ce travail de thèse, seule une poignée de facteurs a été étudiée. Il est donc nécessaire de poursuivre les recherches dans cette direction afin de pouvoir standardiser les pratiques de comparaison de voix et garantir des résultats fiables.
 
Abstract:
In police investigations or criminal trials, voice recordings are often collected for comparison purposes with the voice of suspects. Typically, these recordings, referred to as ‘traces’, come from phone taps, emergency service calls, or voicemail messages. Recordings of suspects, known as ‘comparison pieces’, are usually obtained by law enforcement through voice sampling. Since the traces and comparison pieces were not recorded under the same conditions, and the recording conditions of the traces are often poorly known or entirely unknown, the variability between the recordings being compared cannot be quantified. Numerous factors come into play, including audio file characteristics, linguistic content, the recording environment, and the speaker(s).
Voice comparison practices have evolved throughout history without conforming to a scientific framework. This has led to questioning the reliability of voice expertise (as in the Trayvon Martin case) and the use of fallacious practices (as in the Élodie Kulik case), potentially leading to judicial errors. Nowadays, the French Scientific Police (SNPS) and the Institute of Criminal Research of the National Gendarmerie (IRCGN) have established quality protocols to ensure their expertise is based on scientific literature. The goal of this thesis is to establish a scientific framework to assess the reliability of voice comparison results. To achieve this, we focus on three aspects: the influence of certain factors on voice comparison performance, human perception of a speaker’s identity, and voice characterization.
Firstly, we address the influence of certain factors on voice comparison performance. We study these factors individually and then in combination with other factors. The results show that some factors have a greater impact on performance than others. However, variability exists among speakers. Indeed, the studied factors do not affect performance in the same way for all speakers.
Secondly, we study human perception of speakers. For this, we conducted a perceptual experiment involving grouping recordings based on speakers. To accomplish this task, we defined a grouping purity measure. We also compared the obtained results with those from an automatic voice comparison. The results showed disparities in the speaker grouping, notably linked to the listeners’ native language. The automatic approach achieved better results than the human listeners.
Lastly, we delve into voice characterization. We developed a new system to detect phonation types, initially on pre-pausal vowels, and subsequently on all voiced phonemes. This new system uses PASE+ for extracting multiple parameters and a Multilayer Perceptron (MLP) for classification. We compared this system with a more traditional system based on Mel-Frequency Cepstral Coefficients (MFCC) extraction and Support Vector Machine (SVM) classification. The results highlight the superiority of the newly created system over the traditional one. Generalizing to all voiced phonemes showed that female speakers tended to have modal voice, while male speakers tended to have non-modal voice.
In conclusion, this thesis has demonstrated that voice comparison is a complex field where results can be influenced by numerous factors. Standardizing voice comparison practices requires an in-depth understanding of these factors and their interplay. However, this thesis only explored a handful of factors, demanding further research to standardize voice comparison practices and ensure reliable results.
 
Les commentaires sont clos.