Différences temporelles de Kalman: Cas déterministe - CentraleSupélec Accéder directement au contenu
Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle Année : 2010

Différences temporelles de Kalman: Cas déterministe

Résumé

Un des thèmes importants de l'apprentissage par renforcement est l'approximation en ligne de la fonction de valeur. En plus de leur capacité à prendre en compte de grands espaces d'état, les algorithmes associés devraient présenter certaines caractéristiques comme un apprentissage rapide, la faculté de traquer la solution plutôt que de converger vers elle (particulièrement en raison de l'entrelacement entre contrôle et apprentissage) ou encore la gestion de l'incertitude relative aux estimations faites. Dans cette optique, nous introduisons un cadre de travail général inspiré du filtrage de Kalman que nous nommons différences temporelles de Kalman. Une forme d'apprentissage actif utilisant l'information d'incertitude est également introduite, et comparaison est faite à l'état de l'art sur des problèmes classiques.

Dates et versions

hal-00512093 , version 1 (27-08-2010)

Identifiants

Citer

Matthieu Geist, Olivier Pietquin, Gabriel Fricout. Différences temporelles de Kalman: Cas déterministe. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2010, 24 (4), pp.423-443. ⟨10.3166/ria.24.423-443⟩. ⟨hal-00512093⟩
29 Consultations
0 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More