Passer à la navigation principale Passer à la recherche Passer au contenu principal

No offence, Bert - I insult only humans! Multiple addressees sentence-level attack on toxicity detection neural networks

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

We introduce a simple yet efficient sentence-level attack on black-box toxicity detector models. By adding several positive words or sentences to the end of a hateful message, we are able to change the prediction of a neural network and pass the toxicity detection system check. This approach is shown to be working on seven languages from three different language families. We also describe the defence mechanism against the aforementioned attack and discuss its limitations.

langue originaleAnglais
titreFindings of the Association for Computational Linguistics
Sous-titreEMNLP 2023
EditeurAssociation for Computational Linguistics (ACL)
Pages2362-2369
Nombre de pages8
ISBN (Electronique)9798891760615
Les DOIs
étatPublié - 1 janv. 2023
Evénement2023 Findings of the Association for Computational Linguistics: EMNLP 2023 - Hybrid, Singapour
Durée: 6 déc. 202310 déc. 2023

Série de publications

NomFindings of the Association for Computational Linguistics: EMNLP 2023

Une conférence

Une conférence2023 Findings of the Association for Computational Linguistics: EMNLP 2023
Pays/TerritoireSingapour
La villeHybrid
période6/12/2310/12/23

Empreinte digitale

Examiner les sujets de recherche de « No offence, Bert - I insult only humans! Multiple addressees sentence-level attack on toxicity detection neural networks ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation