Passer à la navigation principale Passer à la recherche Passer au contenu principal

When Can Sequence Modelling Approaches Recover the Target Policy In Offline Reinforcement Learning? a Statistical Analysis

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

We present a theoretical analysis of sample complexity for learning the target policy in offline reinforcement learning (RL) using sequence modeling approaches. Our main theorem establishes bounds on the minimum required number of high-return samples. We identify distinct small-data and large-data regimes, characterized by a critical transition point, and reveal a potential trade-off between context coverage breadth and sampling depth. These findings offer insights into efficient data collection strategies and algorithm design for offline RL.

langue originaleAnglais
titre2025 33rd European Signal Processing Conference, EUSIPCO 2025 - Proceedings
EditeurEuropean Signal Processing Conference, EUSIPCO
Pages1692-1696
Nombre de pages5
ISBN (Electronique)9789464593624
Les DOIs
étatPublié - 1 janv. 2025
Evénement33rd European Signal Processing Conference, EUSIPCO 2025 - Palermo, Italie
Durée: 8 sept. 202512 sept. 2025

Série de publications

NomEuropean Signal Processing Conference
ISSN (imprimé)2219-5491

Une conférence

Une conférence33rd European Signal Processing Conference, EUSIPCO 2025
Pays/TerritoireItalie
La villePalermo
période8/09/2512/09/25

Empreinte digitale

Examiner les sujets de recherche de « When Can Sequence Modelling Approaches Recover the Target Policy In Offline Reinforcement Learning? a Statistical Analysis ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation