Passer à la navigation principale Passer à la recherche Passer au contenu principal

Seeing Through Words: A Zero-Shot Multimodal Audio Description System with Foundation Models

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

Audio description (AD) plays a crucial role in making video content accessible to visually impaired audiences, yet current approaches often rely on expensive supervised training or struggle to capture temporal and narrative consistency. We introduce a training-free framework that integrates vision–language models (VLMs) with large language models (LLMs) through three complementary mechanisms: semantic-constrained prompting to reduce irrelevant content, adaptive character reasoning for accurate entity grounding, and a memory structure that aligns fine-grained shot-level cues with longer scene-level context. This design allows the system to generate temporally coherent and context-aware AD without requiring additional training data. Evaluation on the MAD-eval-Named and TV-AD benchmarks demonstrates consistent improvements over state-of-the-art training-free methods, with gains in both lexical and semantic quality metrics.

langue originaleAnglais
titreAdvances in Visual Computing - 20th International Symposium, ISVC 2025, Proceedings
rédacteurs en chefGeorge Bebis, Jinwei Ye, Yuxiong Wang, Mina Konakovic Lukovic, Nima Khademi Kalantari, Isaac Cho, Yalong Yang, Evanthia Dimara, Matthew Brehmer
EditeurSpringer Science and Business Media Deutschland GmbH
Pages85-97
Nombre de pages13
ISBN (imprimé)9783032144942
Les DOIs
étatPublié - 1 janv. 2026
Evénement20th International Symposium on Visual Computing, ISVC 2025 - Las Vegas, États-Unis
Durée: 17 nov. 202519 nov. 2025

Série de publications

NomLecture Notes in Computer Science
Volume16397 LNCS
ISSN (imprimé)0302-9743
ISSN (Electronique)1611-3349

Une conférence

Une conférence20th International Symposium on Visual Computing, ISVC 2025
Pays/TerritoireÉtats-Unis
La villeLas Vegas
période17/11/2519/11/25

Empreinte digitale

Examiner les sujets de recherche de « Seeing Through Words: A Zero-Shot Multimodal Audio Description System with Foundation Models ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation