Passer à la navigation principale Passer à la recherche Passer au contenu principal

Learning and data selection in big datasets

  • Hossein S. Ghadikolaei
  • , Hadi Ghauch
  • , Carlo Fischione
  • , Mikael Skoglund
  • KTH Royal Institute of Technology

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

Finding a dataset of minimal cardinality to characterize the optimal parameters of a model is of paramount importance in machine learning and distributed optimization over a network. This paper investigates the compressibility of large datasets. More specifically, we propose a framework that jointly learns the input-output mapping as well as the most representative samples of the dataset (sufficient dataset). Our analytical results show that the cardinality of the sufficient dataset increases sub-linearly with respect to the original dataset size. Numerical evaluations of real datasets reveal a large compressibility, up to 95%, without a noticeable drop in the learnability performance, measured by the generalization error.

langue originaleAnglais
titre36th International Conference on Machine Learning, ICML 2019
EditeurInternational Machine Learning Society (IMLS)
Pages3848-3857
Nombre de pages10
ISBN (Electronique)9781510886988
étatPublié - 1 janv. 2019
Evénement36th International Conference on Machine Learning, ICML 2019 - Long Beach, États-Unis
Durée: 9 juin 201915 juin 2019

Série de publications

Nom36th International Conference on Machine Learning, ICML 2019
Volume2019-June

Une conférence

Une conférence36th International Conference on Machine Learning, ICML 2019
Pays/TerritoireÉtats-Unis
La villeLong Beach
période9/06/1915/06/19

Empreinte digitale

Examiner les sujets de recherche de « Learning and data selection in big datasets ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation