Filtrage bayésien de la récompense - CentraleSupélec Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

Filtrage bayésien de la récompense

Résumé

Une large variété de schémas d'approximation de la fonction de valeur a été appliquée à l'apprentissage par renforcement. Cependant les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d'autres domaines comme l'apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu'à présent. Cette contribution introduit un cadre de travail général pour l'apprentissage par renforcement basé sur le filtrage bayésien, ainsi qu'une implémentation spécifique basée sur un filtre de Kalman à sigma-points et une paramétrisation par noyaux. Cela nous permet de proposer un algorithme de différences temporelles pour des espaces d'état et/ou d'action continus qui soit model-free et off-policy. Il sera illustré sur deux problèmes simples.
Fichier non déposé

Dates et versions

hal-00351343 , version 1 (09-01-2009)

Identifiants

  • HAL Id : hal-00351343 , version 1

Citer

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Filtrage bayésien de la récompense. JFPDA 2008, Jun 2008, Metz, France. pp.113-122. ⟨hal-00351343⟩
26 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More