Passer à la navigation principale Passer à la recherche Passer au contenu principal

A Non-asymptotic Analysis of Non-parametric Temporal-Difference Learning

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

Temporal-difference learning is a popular algorithm for policy evaluation. In this paper, we study the convergence of the regularized non-parametric TD(0) algorithm, in both the independent and Markovian observation settings. In particular, when TD is performed in a universal reproducing kernel Hilbert space (RKHS), we prove convergence of the averaged iterates to the optimal value function, even when it does not belong to the RKHS. We provide explicit convergence rates that depend on a source condition relating the regularity of the optimal value function to the RKHS. We illustrate this convergence numerically on a simple continuous-state Markov reward process.

langue originaleAnglais
titreAdvances in Neural Information Processing Systems 35 - 36th Conference on Neural Information Processing Systems, NeurIPS 2022
rédacteurs en chefS. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, A. Oh
EditeurNeural information processing systems foundation
ISBN (Electronique)9781713871088
étatPublié - 1 janv. 2022
Evénement36th Conference on Neural Information Processing Systems, NeurIPS 2022 - New Orleans, États-Unis
Durée: 28 nov. 20229 déc. 2022

Série de publications

NomAdvances in Neural Information Processing Systems
Volume35
ISSN (imprimé)1049-5258

Une conférence

Une conférence36th Conference on Neural Information Processing Systems, NeurIPS 2022
Pays/TerritoireÉtats-Unis
La villeNew Orleans
période28/11/229/12/22

Empreinte digitale

Examiner les sujets de recherche de « A Non-asymptotic Analysis of Non-parametric Temporal-Difference Learning ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation