Classification régularisée par la récompense pour l'Apprentissage par Imitation - Archive ouverte HAL Access content directly
Conference Papers Year :

Classification régularisée par la récompense pour l'Apprentissage par Imitation

Abstract

Cet article traite le problème d'Apprentissage par Démonstrations (AD) dans lequel un agent appelé apprenti cherche à apprendre à partir des démonstrations d'un autre agent appelé expert. Pour aborder ce problème assez général, il est commun d'adopter le paradigme des Processus Décisionnels de Markov (PDM) qui est approprié pour les problèmes de prises de décisions séquentielles. Dans la littérature, il y a principalement deux façons de traiter ce problème (en faisant appel aux PDM) qui sont l'Apprentissage par Imitation (AI) où l'apprenti cherche directement à imiter la politique de l'expert et l'Apprentissage par Renforcement Inverse (ARI) où l'apprenti essaye d'apprendre une récompense qui pourrait expliquer la politique de l'expert. Ici, nous introduisons un paradigme inédit, appelé cadre de travail des politiques d'ensembles ( set-policy framework ), pour lequel il y a un lien naturel entre les méthodes d'AI et d'ARI. Ce paradigme permet de dériver des nouveaux algorithmes qui nécessitent uniquement la connaissance de couples état-action experts et d'exemples de transitions du PDM. Des expériences sont réalisés sur un problème qui fait référence (un simulateur de trafic routier) et sur une tâche plus générique (les Garnets) qui permet une comparaison plus générale des algorithmes. Mots-clés : Apprentissage par Renforcement Inverse, Apprentissage par Imitation.
Fichier principal
Vignette du fichier
Piot_Bilal_RCAL.pdf (193.86 Ko) Télécharger le fichier
Origin : Files produced by the author(s)
Loading...

Dates and versions

hal-00916940 , version 1 (11-12-2013)

Identifiers

  • HAL Id : hal-00916940 , version 1

Cite

Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification régularisée par la récompense pour l'Apprentissage par Imitation. Journées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France. ⟨hal-00916940⟩
153 View
117 Download

Share

Gmail Facebook Twitter LinkedIn More