Classiﬁcation structurée pour l'apprentissage par renforcement inverse

Edouard Klein; Bilal Piot; Matthieu Geist; Olivier Pietquin

doi:10.3166/ria.27.155-169

Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle Année : 2013

Classiﬁcation structurée pour l'apprentissage par renforcement inverse

(1) , (1) , (1) , (1)

Edouard Klein

Fonction : Auteur
PersonId : 901877

IMS : Information, Multimodalité & Signal

Bilal Piot

Fonction : Auteur

IMS : Information, Multimodalité & Signal

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

IMS : Information, Multimodalité & Signal

Olivier Pietquin

Fonction : Auteur
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

IMS : Information, Multimodalité & Signal

Résumé

Cette contribution traite le problème de l'apprentissage par renforcement inverse (ARI), déﬁni comme la recherche d'une fonction de récompense pour laquelle le comportement d'un expert (connu par le biais de démonstrations) est optimal. Nous introduisons SCIRL, un nouvel algorithme qui utilise la grandeur dénommée attribut moyen de l'expert comme la paramétrisation d'une fonction de score pour un classiﬁeur multiclasse. Cette approche donne une fonction de récompense pour laquelle la politique de l'expert est (nous le démontrons) quasi optimale. Contrairement à la plupart des algorithmes d'ARI existants, SCIRL n'a pas besoin de résoudre le problème direct de l'apprentissage par renforcement. De plus, en utilisant une heuristique, il fonctionne avec uniquement des trajectoires échantillonnées par l'expert. Nous illustrons cela sur un simulateur de conduite.

Domaines

Intelligence artificielle [cs.AI]

Sébastien Van Luchene : Connectez-vous pour contacter le contributeur

https://centralesupelec.hal.science/hal-00869723

Soumis le : vendredi 4 octobre 2013-09:02:07

Dernière modification le : mardi 14 février 2023-03:36:05

Dates et versions

Identifiants

HAL Id : hal-00869723 , version 1
DOI : 10.3166/ria.27.155-169

Citer

Edouard Klein, Bilal Piot, Matthieu Geist, Olivier Pietquin. Classiﬁcation structurée pour l'apprentissage par renforcement inverse. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, 2013, 27 (2), pp.155-169. ⟨10.3166/ria.27.155-169⟩. ⟨hal-00869723⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC CENTRALESUPELEC

53 Consultations

0 Téléchargements

Classiﬁcation structurée pour l'apprentissage par renforcement inverse

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager