Apprentissage par imitation dans un cadre batch, off-policy et sans modèle - CentraleSupélec Accéder directement au contenu
Communication Dans Un Congrès Année : 2011

Apprentissage par imitation dans un cadre batch, off-policy et sans modèle

Résumé

Ce papier traite le problème de l'apprentissage par imitation, c'est à dire la résolution du problème du contrôle optimal à partir de données tirées d'une démonstration d'expert. L'apprentissage par renforcement inverse (IRL) propose un cadre efficace pour résoudre ce problème. En se basant sur l'hypothèse que l'expert maximise un critère, l'IRL essaie d'apprendre la récompense qui définit ce critère à partir de trajectoires d'exemple. Beaucoup d'algorithmes d'IRL font l'hypothèse de l'existence d'un bon approximateur linéaire pour la fonction de récompense et calculent l'attribut moyen (le cumul moyen pondéré des fonctions de base, relatives à la paramétrisation linéaire supposée de la récompense, évaluées en les états d'une trajectoire associée à une certaine politique) via une estimation de Monte-Carlo. Cela implique d'avoir accès à des trajectoires complète de l'expert ainsi qu'à au moins un modèle génératif pour tester les politiques intermédiaires. Dans ce papier nous introduisons une méthode de différence temporelle, LSTD-µ, pour calculer cet attribut moyen. Cela permet d'étendre l'apprentissage par imitation aux cas batch et off-policy.
Fichier principal
Vignette du fichier
Supelec702.pdf (412.46 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00652762 , version 1 (17-01-2012)

Identifiants

  • HAL Id : hal-00652762 , version 1

Citer

Edouard Klein, Matthieu Geist, Olivier Pietquin. Apprentissage par imitation dans un cadre batch, off-policy et sans modèle. JFPDA 2011, Jun 2011, Rouen, France. pp.1-9. ⟨hal-00652762⟩
164 Consultations
125 Téléchargements

Partager

Gmail Facebook X LinkedIn More