Soutenance de thèse de Carlos González
Soutenance de thèse de Carlos González intitulée « Résumé automatique multimédia et multilingue et Recherche d’information » le mercredi 18 décembre 2019 à 14H00 dans la Salle de thèses (Saint Marthe – Centre Ville).
Jury de thèse:
Mme Violaine PRINCE Professeur, LIRMM, Montpellier 2 Rapportrice
M. Eric GAUSSIER Professeur, LIG, Grenoble Rapporteur
Mme. Fatiha SADAT Professeur, GDAC, Montréal Examinatrice
M. Laurent BESACIER Professeur, LIG, Grenoble Examinateur
M. Kamel SMAILI Professeur, LORIA, CNRS-Lorraine-Inria Examinateur
M. Alfonso MEDINA URREA Chercheur, CELL, COLMEX Examinateur
M. Juan-Manuel TORRES-MORENO Maître de Conférence HDR, LIA, Avignon Directeur
M. Eric SANJUAN Maître de Conférence HDR, LIA, Avignon Co-directeur
****
Résumé :
Alors que les sources multimédias sont massivement disponibles en ligne, aider les utilisateurs à comprendre la grande quantité d’information générée est devenu un problème majeur. Une façon de procéder consiste à résumer le contenu multimédia, générant ainsi des versions abrégées et informatives des sources. Cette thèse aborde le sujet du résumé automatique (texte et parole) dans un contexte multilingue. Elle a été réalisée dans le cadre du projet CHISTERA-ANR Accès multilingue à l’information (AMIS).
Le résumé multimédia basé sur le texte utilise des transcriptions pour produire des résumés qui peuvent être présentés sous forme textuelle ou dans leur format d’origine. La transcription des sources multimédia peut être effectuée manuellement ou automatiquement par un système de Reconnaissance automatique de la parole (RAP). Les transcriptions peuvent différer de la langue écrite car la source étant parlée. De plus, ces transcriptions manquent d’informations syntaxiques.
Par exemple, les majuscules et les signes de ponctuation sont absents, ce qu’implique des phrases inexistantes. Pour palier ce problème nous proposons une méthode pour la détection des limites de phrases (DLP). Elle est orientée aux transcriptions et utilise des caractéristiques textuelles pour séparer les Unités sémantiques (US) dans un contexte multilingue. Notre approche, basée sur des vecteurs d’information des n-grammes de lettres et des Réseaux de neurones convolutifs, dépasse les performances des méthodes état-de-l’art en identifiant correctement les frontières des US en français, anglais et arabe standard. Nous étudions ensuite l’impact des corpora entre-domaines en arabe standard, en montrant que le raffinement d’un modèle, conçu initialement avec un grand corpus hors du domaine, avec un petit corpus du domaine améliore la performance de la DLP. Enfin, nous étendons ARTEX, un résumeur textuel extractif état de l’art, pour traiter de documents en arabe standard en adaptant ses modules de prétraitement. Les résumés peuvent être présentés sous une forme textuelle ou dans leur format multimédia original en alignant les US sélectionnées.
En ce qui concerne le résumé multimédia basée sur l’audio, nous introduisons une méthode extractive qui représente l’informativité de la source à partir de ses caractéristiques audio pour sélectionner les segments les plus pertinents pour le résumé. Pendant la phase d’entraînement, notre méthode utilise les transcriptions des documents audio pour créer un modèle informatif qui établit une correspondance entre un ensemble de caractéristiques audio et une mesure de divergence. Dans notre système, les transcriptions ne sont plus nécessaires pour résumer des nouveaux documents audio.
Les résultats obtenus sur un schéma multi-évaluation montrent que notre approche génère des résumés compréhensibles et informatifs.
Nous avons étudié également les mesures d’évaluation et nous avons développé la méthode Window-based Sentence Boundary Evaluation (WiSeBE), une métrique semi-supervisée basée sur le (dés)accord multi-références. On examine si l’évaluation basée sur une référence unique d’un système de DLP suffit à évaluer son performance. Nous explorons également la possibilité de mesurer la qualité des transcriptions automatiques en fonction de leur informativité. De plus, nous étudions dans quelle mesure le résumé automatique peut compenser les problèmes posés au cours de la transcription. Enfin, nous étudions comment les mesures d’évaluation d’informativité peuvent être étendues pour l’évaluation de l’intérêt des passages textuels.
*****
Abstract:
As multimedia sources have become massively available online, helping users to understand the large amount of information they generate has become a major issue. One way to approach this is by summarizing multimedia content, thus generating abridged and informative versions of the original sources. This PhD thesis addresses the subject of text and audio-based multimedia summarization in a multilingual context. It has been conducted within the framework of the Access Multilingual Information opinionS (AMIS) CHISTERA-ANR project, whose main objective is to make information easy to understand for everybody.
Text-based multimedia summarization uses transcripts to produce summaries that may be presented either as text or in their original format. The transcription of multimedia sources can be done manually or automatically by an Automatic Speech Recognition (ASR) system. The transcripts produced using either method differ from wellformed written language given their source is mostly spoken language. In addition, ASR transcripts lack syntactic information. For example, capital letters and punctuation marks are unavailable, which means sentences are nonexistent. To deal with this problem, we propose a Sentence Boundary Detection (SBD) method for ASR transcripts which uses textual features to separate the Semantic Units (SUs) within an automatic transcript in a multilingual context. Our approach, based on subword-level information vectors and Convolutional Neural Networks (CNNs), overperforms baselines by correctly identifying SU borders for French, English and Modern Standard Arabic (MSA). We then study the impact of cross-domain datasets over MSA, showing that tuning a model that was originally trained with a big out-of-domain dataset with a small in-domain dataset normally improves SBD performance. Finally, we extend ARTEX, a state-of-the-art extractive text summarization method, to process documents in MSA by adapting preprocessing modules. The resulting summaries can be presented as plain text or in their original multimedia format by aligning the selected SUs.
Concerning audio-based summarization, we introduce an extractive method which represents the informativeness of the source based on its audio features to select the segments that are most pertinent to the summary. During the training phase, our method uses available transcripts of the audio documents to create an informativeness model which maps a set of audio features with a divergence value. Subsequently, when summarizing new audio documents, transcripts are not needed anymore. Results over a multi-evaluator scheme show that our approach provides understandable and informative summaries.
We also deal with the field of evaluation measures. We have developed Window-based Sentence Boundary Evaluation (WiSeBE), a semi-supervised metric based on multi-reference (dis)agreement, which examines whether evaluating an automatic SBD system based on a single reference is enough to assess how well the system is performing. We also explore the possibility of measuring the quality of an automatic transcript based on its informativeness. In addition, we study the extent to which automatic summarization may compensate for the problems raised during the transcription phase. Lastly, we study how text informativeness evaluation measures may be extended to passage interestingness evaluation.
*****