Soutenance de thèse : Thibault Cordier

Soutenance de thèse : Thibault Cordier

Date :  vendredi 13 octobre à 9h, 

Lieu : salle des thèses à l’Université d’Avignon, Campus Hannah Arendt (centre-ville).

Titre : “Hierarchical Imitation and Reinforcement Learning for Multi-Domain Task-Oriented Dialogue Systems”.

La soutenance peut être suivie en live stream via le lien suivant : https://v-au.univ-avignon.fr/live.

Résumé :

Dans cette thèse, nous étudions les systèmes de dialogue orientés tâches qui sont des systèmes conçus pour aider les utilisateurs à accomplir des tâches spécifiques, telles que la réservation d’un vol ou d’un restaurant. Ils s’appuient généralement sur un paradigme d’apprentissage par renforcement pour modéliser le dialogue permettant au système de raisonner sur les objectifs et les préférences de l’utilisateur, et de sélectionner les actions qui conduiront au résultat souhaité.

Nous nous concentrons spécifiquement sur l’apprentissage à partir d’un nombre limité d’interactions, ce qui est crucial en raison de la rareté et du coût des interactions humaines. Les algorithmes standards d’apprentissage par renforcement nécessitent généralement une grande quantité de données d’interaction pour obtenir de bonnes performances. Pour relever ce défi, nous visons à rendre les systèmes de dialogue plus efficaces en termes d’échantillonnage dans leur entraînement.

Nous nous sommes inspirés principalement des idées d’imitation et de hiérarchie. Notre première contribution explore l’intégration de l’imitation dans l’apprentissage par renforcement. Nous étudions comment utiliser efficacement les démonstrations d’experts pour extrapoler les connaissances avec un effort de généralisation minimal. Notre deuxième contribution porte sur l’exploitation de la hiérarchie et de la structure inhérentes aux dialogues. En nous inspirant de l’avantage que présente la décomposition de problèmes complexes en problèmes plus simples, nous explorons la manière d’exploiter les similitudes entre les tâches et les domaines dans les systèmes de dialogue. Enfin, nous consolidons nos résultats précédents et soulignons l’importance de l’apprentissage à partir d’un petit nombre d’interactions humaines dans les applications du monde réel.

Jury :

M. Olivier PIETQUIN, Pr., Université de Lille / Google Research – CRIStAL (Rapporteur)
M. Stefan ULTES, Pr., Université Otto-Friedrich de Bamberg (Rapporteur)
M. Frederic BECHET, Pr., Université d’Aix Marseille – LIS (Examinateur)
M. Matthieu GEIST, Pr., Université de Lorraine / Google Research – LIEC (Examinateur)
M. Jean-Francois BONASTRE,  Pr., Avignon Université – LIA (Examinateur)
M. Yezekael HAYEL, Pr., Avignon Université – LIA (Invité)
Mme Lina ROJAS-BARAHONA, Dr., Orange Labs (Co-Encadrante)
M. Tanguy URVOY, Dr., Orange Labs (Co-Encadrant)
M. Fabrice LEFEVRE , Pr., Avignon Université – LIA (Directeur de thèse)

—————

Friday, the 13th of October at 9 am,

room “salle des thèses” at l’Université d’Avignon, Campus Hannah Arendt (centre-ville).

Title: « Hierarchical Imitation and Reinforcement Learning for Multi-Domain Task-Oriented Dialogue Systems ».

The defence can be followed through the live link below: https://v-au.univ-avignon.fr/live

Abstract:

In this Ph.D thesis, we study task-oriented dialogue systems that are systems designed to assist users in completing specific tasks, such as booking a flight or ordering food. They typically rely on reinforcement learning paradigm to model the dialogue that allows the system to reason about the user’s goals and preferences, and to select actions that will lead to the desired outcome.

Our focus is specifically on learning from a limited number of interactions that is crucial due to the scarcity and costliness of human interactions. Standard reinforcement learning algorithms typically require a large amount of interaction data to achieve good performance. To address this challenge, we aim to make dialogue systems more sample-efficient in their training.

We draw from two main ideas: imitation and hierarchy. Our first contribution explores the integration of imitation with reinforcement learning. We investigate how to effectively use expert demonstrations to extrapolate knowledge with minimal generalisation effort. Our second contribution focuses on harnessing the hierarchy and structure inherent in dialogues. Taking inspiration from the advantage of decomposing complex problems into simpler ones, we explore how to exploit task and domain similarities in dialogue systems. Lastly, we consolidate our previous findings and emphasise the importance of learning from a small number of human interactions in real-world applications.

Jury:

M. Olivier PIETQUIN, Pr., Université de Lille / Google Research – CRIStAL (Rapporteur)
M. Stefan ULTES, Pr., Université Otto-Friedrich de Bamberg (Rapporteur)
M. Frederic BECHET, Pr., Université d’Aix Marseille – LIS (Examinateur)
M. Matthieu GEIST, Pr., Université de Lorraine / Google Research – LIEC (Examinateur)
M. Jean-Francois BONASTRE,  Pr., Avignon Université – LIA (Examinateur)
M. Yezekael HAYEL, Pr., Avignon Université – LIA (Invité)
Mme Lina ROJAS-BARAHONA, Dr., Orange Labs (Co-Encadrante)
M. Tanguy URVOY, Dr., Orange Labs (Co-Encadrant)
M. Fabrice LEFEVRE , Pr., Avignon Université – LIA (Directeur de thèse)

Les commentaires sont clos.