Passer à la navigation principale Passer à la recherche Passer au contenu principal

Batched bandit problems

  • Laboratoire de Probabilités et Modèles Aléatoires
  • Massachusetts Institute of Technology
  • Princeton University
  • California Institute of Technology

Résultats de recherche: Contribution à un journalArticleRevue par des pairs

Résumé

Motivated by practical applications, chiefly clinical trials, we study the regret achievable for stochastic bandits under the constraint that the employed policy must split trials into a small number of batches. We propose a simple policy, and show that a very small number of batches gives close to minimax optimal regret bounds. As a byproduct, we derive optimal policies with low switching cost for stochastic bandits.

langue originaleAnglais
Pages (de - à)660-681
Nombre de pages22
journalAnnals of Statistics
Volume44
Numéro de publication2
Les DOIs
étatPublié - 1 avr. 2016
Modification externeOui

Empreinte digitale

Examiner les sujets de recherche de « Batched bandit problems ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation