Classification régularisée par la récompense pour l'Apprentissage par Imitation - CentraleSupélec Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Classification régularisée par la récompense pour l'Apprentissage par Imitation

Résumé

Cet article traite le problème d'Apprentissage par Démonstrations (AD) dans lequel un agent appelé apprenti cherche à apprendre à partir des démonstrations d'un autre agent appelé expert. Pour aborder ce problème assez général, il est commun d'adopter le paradigme des Processus Décisionnels de Markov (PDM) qui est approprié pour les problèmes de prises de décisions séquentielles. Dans la littérature, il y a principalement deux façons de traiter ce problème (en faisant appel aux PDM) qui sont l'Apprentissage par Imitation (AI) où l'apprenti cherche directement à imiter la politique de l'expert et l'Apprentissage par Renforcement Inverse (ARI) où l'apprenti essaye d'apprendre une récompense qui pourrait expliquer la politique de l'expert. Ici, nous introduisons un paradigme inédit, appelé cadre de travail des politiques d'ensembles ( set-policy framework ), pour lequel il y a un lien naturel entre les méthodes d'AI et d'ARI. Ce paradigme permet de dériver des nouveaux algorithmes qui nécessitent uniquement la connaissance de couples état-action experts et d'exemples de transitions du PDM. Des expériences sont réalisés sur un problème qui fait référence (un simulateur de trafic routier) et sur une tâche plus générique (les Garnets) qui permet une comparaison plus générale des algorithmes. Mots-clés : Apprentissage par Renforcement Inverse, Apprentissage par Imitation.
Fichier principal
Vignette du fichier
Piot_Bilal_RCAL.pdf (193.86 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00916940 , version 1 (11-12-2013)

Identifiants

  • HAL Id : hal-00916940 , version 1

Citer

Bilal Piot, Matthieu Geist, Olivier Pietquin. Classification régularisée par la récompense pour l'Apprentissage par Imitation. Journées Francophones de Plannification, Décision et Apprentissage (JFPDA), Jul 2013, Lille, France. ⟨hal-00916940⟩
162 Consultations
144 Téléchargements

Partager

Gmail Facebook X LinkedIn More