Passer à la navigation principale Passer à la recherche Passer au contenu principal

Benchmarking the Benchmarks: Reproducing Climate-Related NLP Tasks

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

Significant efforts have been made in the NLP community to facilitate the automatic analysis of climate-related corpora by tasks such as climate-related topic detection, climate risk classification, question answering over climate topics, and many more. In this work, we perform a reproducibility study on 8 tasks and 29 datasets, testing 6 models. We find that many tasks rely heavily on surface-level keyword patterns rather than deeper semantic or contextual understanding. Moreover, we find that 96% of the datasets contain annotation issues, with 16.6% of the sampled wrong predictions of a zero-shot classifier being actually clear annotation mistakes, and 38.8% being ambiguous examples. These results call into question the reliability of current benchmarks to meaningfully compare models and highlight the need for improved annotation practices. We conclude by outlining actionable recommendations to enhance dataset quality and evaluation robustness.

langue originaleAnglais
titreFindings of the Association for Computational Linguistics
Sous-titreACL 2025
rédacteurs en chefWanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
EditeurAssociation for Computational Linguistics (ACL)
Pages17967-18009
Nombre de pages43
ISBN (Electronique)9798891762565
Les DOIs
étatPublié - 1 janv. 2025
Evénement63rd Annual Meeting of the Association for Computational Linguistics, ACL 2025 - Vienna, Autriche
Durée: 27 juil. 20251 août 2025

Série de publications

NomProceedings of the Annual Meeting of the Association for Computational Linguistics
ISSN (imprimé)0736-587X

Une conférence

Une conférence63rd Annual Meeting of the Association for Computational Linguistics, ACL 2025
Pays/TerritoireAutriche
La villeVienna
période27/07/251/08/25

SDG des Nations Unies

Ce résultat contribue à ou aux Objectifs de développement durable suivants

  1. SDG 13 - Action climatique
    SDG 13 Action climatique

Empreinte digitale

Examiner les sujets de recherche de « Benchmarking the Benchmarks: Reproducing Climate-Related NLP Tasks ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation