Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement

Matthieu Geist; Olivier Pietquin

Communication Dans Un Congrès Année : 2010

Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement

(1) , (1)

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

SUPELEC-Campus Metz

Olivier Pietquin

Fonction : Auteur
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

SUPELEC-Campus Metz

Résumé

Le dilemme entre exploration et exploitation est un problème important en apprentissage par renforcement (AR). Les approches associées les plus efficaces utilisent généralement une information d'incertitude des valeurs estimées pendant l'apprentissage. D'un autre côté, la prise en compte de grands espaces d'état est problématique en AR et l'approximation de la fonction de valeur est devenue un domaine de recherche important. Ces deux problèmes co-existent dans la plupart des applications. Cependant, peu d'approches permettent à la fois d'approcher la fonction de valeur et d'en déduire une information d'incertitude sur les estimations. Dans cet article, nous montrons comment une telle information d'incertitude se déduit naturellement d'un cadre de travail basé sur les différences temporelles et le filtrage de Kalman. Nous introduisons un schéma d'apprentissage actif pour un algorithme du second ordre du type itération de la valeur (nommément KTD-Q). Nous proposons également l'adaptation de quelques méthodes traitant du dilemme entre exploration et exploitation initialement conçues pour le cas tabulaire.

Sébastien Van Luchene : Connectez-vous pour contacter le contributeur

https://centralesupelec.hal.science/hal-00553895

Soumis le : lundi 10 janvier 2011-10:50:58

Dernière modification le : mardi 14 février 2023-03:38:04

Dates et versions

hal-00553895 , version 1 (10-01-2011)

Identifiants

HAL Id : hal-00553895 , version 1

Citer

Matthieu Geist, Olivier Pietquin. Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement. CAP 2010, May 2010, Clermont-Ferrand, France. pp.101-112. ⟨hal-00553895⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC CENTRALESUPELEC

33 Consultations

0 Téléchargements

Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement

Résumé

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager