Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement - CentraleSupélec Access content directly
Conference Papers Year : 2010

Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement

Matthieu Geist
Olivier Pietquin

Abstract

Le dilemme entre exploration et exploitation est un problème important en apprentissage par renforcement (AR). Les approches associées les plus efficaces utilisent généralement une information d'incertitude des valeurs estimées pendant l'apprentissage. D'un autre côté, la prise en compte de grands espaces d'état est problématique en AR et l'approximation de la fonction de valeur est devenue un domaine de recherche important. Ces deux problèmes co-existent dans la plupart des applications. Cependant, peu d'approches permettent à la fois d'approcher la fonction de valeur et d'en déduire une information d'incertitude sur les estimations. Dans cet article, nous montrons comment une telle information d'incertitude se déduit naturellement d'un cadre de travail basé sur les différences temporelles et le filtrage de Kalman. Nous introduisons un schéma d'apprentissage actif pour un algorithme du second ordre du type itération de la valeur (nommément KTD-Q). Nous proposons également l'adaptation de quelques méthodes traitant du dilemme entre exploration et exploitation initialement conçues pour le cas tabulaire.
Not file

Dates and versions

hal-00553895 , version 1 (10-01-2011)

Identifiers

  • HAL Id : hal-00553895 , version 1

Cite

Matthieu Geist, Olivier Pietquin. Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement. CAP 2010, May 2010, Clermont-Ferrand, France. pp.101-112. ⟨hal-00553895⟩
26 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More