Passer à la navigation principale Passer à la recherche Passer au contenu principal

Fast Asymptotically Optimal Algorithms for Non-Parametric Stochastic Bandits

  • Dorian Baudry
  • , Fabien Pesquerel
  • , Rémy Degenne
  • , Odalric Ambrym Maillard

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

We consider the problem of regret minimization in non-parametric stochastic bandits. When the rewards are known to be bounded from above, there exists asymptotically optimal algorithms, with asymptotic regret depending on an infimum of Kullback-Leibler divergences (KL). These algorithms are computationally expensive and require storing all past rewards, thus simpler but non-optimal algorithms are often used instead. We introduce several methods to approximate the infimum KL which reduce drastically the computational and memory costs of existing optimal algorithms, while keeping their regret guaranties. We apply our findings to design new variants of the MED and IMED algorithms, and demonstrate their interest with extensive numerical simulations.

langue originaleAnglais
titreAdvances in Neural Information Processing Systems 36 - 37th Conference on Neural Information Processing Systems, NeurIPS 2023
rédacteurs en chefA. Oh, T. Neumann, A. Globerson, K. Saenko, M. Hardt, S. Levine
EditeurNeural information processing systems foundation
ISBN (Electronique)9781713899921
étatPublié - 1 janv. 2023
Evénement37th Conference on Neural Information Processing Systems, NeurIPS 2023 - New Orleans, États-Unis
Durée: 10 déc. 202316 déc. 2023

Série de publications

NomAdvances in Neural Information Processing Systems
Volume36
ISSN (imprimé)1049-5258

Une conférence

Une conférence37th Conference on Neural Information Processing Systems, NeurIPS 2023
Pays/TerritoireÉtats-Unis
La villeNew Orleans
période10/12/2316/12/23

Empreinte digitale

Examiner les sujets de recherche de « Fast Asymptotically Optimal Algorithms for Non-Parametric Stochastic Bandits ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation