Passer à la navigation principale Passer à la recherche Passer au contenu principal

BERTweetFR: Domain Adaptation of Pre-Trained Language Models for French Tweets

  • École Polytechnique
  • Shanghai Jiao Tong University

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

We introduce BERTweetFR, the first large-scale pre-trained language model for French tweets. Our model is initialized using the general-domain French language model CamemBERT (Martin et al., 2020) which follows the base architecture of BERT. Experiments show that BERTweetFR outperforms all previous general-domain French language models on two downstream Twitter NLP tasks of offensiveness identification and named entity recognition. The dataset used in the offensiveness detection task is first created and annotated by our team, filling in the gap of such analytic datasets in French. We make our model publicly available in the transformers library with the aim of promoting future research in analytic tasks for French tweets.

langue originaleAnglais
titreW-NUT 2021 - 7th Workshop on Noisy User-Generated Text, Proceedings of the Conference
rédacteurs en chefWei Xu, Alan Ritter, Tim Baldwin, Afshin Rahimi
EditeurAssociation for Computational Linguistics (ACL)
Pages445-450
Nombre de pages6
ISBN (Electronique)9781954085909
étatPublié - 1 janv. 2021
Modification externeOui
Evénement7th Workshop on Noisy User-Generated Text, W-NUT 2021 - Virtual, Online
Durée: 11 nov. 2021 → …

Série de publications

NomW-NUT 2021 - 7th Workshop on Noisy User-Generated Text, Proceedings of the Conference

Une conférence

Une conférence7th Workshop on Noisy User-Generated Text, W-NUT 2021
La villeVirtual, Online
période11/11/21 → …

Empreinte digitale

Examiner les sujets de recherche de « BERTweetFR: Domain Adaptation of Pre-Trained Language Models for French Tweets ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation