Passer à la navigation principale Passer à la recherche Passer au contenu principal

The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

We present a novel class of jailbreak adversarial attacks on LLMs, termed Task-in-Prompt (TIP) attacks. Our approach embeds sequence-to-sequence tasks (e.g., cipher decoding, riddles, code execution) into the model's prompt to indirectly generate prohibited inputs. To systematically assess the effectiveness of these attacks, we introduce the PHRYGE benchmark. We demonstrate that our techniques successfully circumvent safeguards in six state-of-the-art language models, including GPT-4o and LLaMA 3.2. Our findings highlight critical weaknesses in current LLM safety alignment and underscore the urgent need for more sophisticated defence strategies.

langue originaleAnglais
titreLong Papers
rédacteurs en chefWanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
EditeurAssociation for Computational Linguistics (ACL)
Pages6716-6730
Nombre de pages15
ISBN (Electronique)9798891762510
Les DOIs
étatPublié - 1 janv. 2025
Evénement63rd Annual Meeting of the Association for Computational Linguistics, ACL 2025 - Vienna, Autriche
Durée: 27 juil. 20251 août 2025

Série de publications

NomProceedings of the Annual Meeting of the Association for Computational Linguistics
Volume1
ISSN (imprimé)0736-587X

Une conférence

Une conférence63rd Annual Meeting of the Association for Computational Linguistics, ACL 2025
Pays/TerritoireAutriche
La villeVienna
période27/07/251/08/25

Empreinte digitale

Examiner les sujets de recherche de « The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation