Filtrage bayésien de la récompense - Archive ouverte HAL Access content directly
Conference Papers Year : 2008

Filtrage bayésien de la récompense

Abstract

Une large variété de schémas d'approximation de la fonction de valeur a été appliquée à l'apprentissage par renforcement. Cependant les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d'autres domaines comme l'apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu'à présent. Cette contribution introduit un cadre de travail général pour l'apprentissage par renforcement basé sur le filtrage bayésien, ainsi qu'une implémentation spécifique basée sur un filtre de Kalman à sigma-points et une paramétrisation par noyaux. Cela nous permet de proposer un algorithme de différences temporelles pour des espaces d'état et/ou d'action continus qui soit model-free et off-policy. Il sera illustré sur deux problèmes simples.
Not file

Dates and versions

hal-00351343 , version 1 (09-01-2009)

Identifiers

  • HAL Id : hal-00351343 , version 1

Cite

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Filtrage bayésien de la récompense. JFPDA 2008, Jun 2008, Metz, France. pp.113-122. ⟨hal-00351343⟩
25 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More