Passer à la navigation principale Passer à la recherche Passer au contenu principal

AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder

  • Samir Sadok
  • , Simon Leglaive
  • , Laurent Girin
  • , Gaël Richard
  • , Xavier Alameda-Pineda
  • LTHE (UMR 5564 CNRS/IRD/Université de Grenoble)
  • Bâtiment 11D

Résultats de recherche: Le chapitre dans un livre, un rapport, une anthologie ou une collectionContribution à une conférenceRevue par des pairs

Résumé

This article introduces AnCoGen, a novel method that leverages a masked autoencoder to unify the analysis, control, and generation of speech signals within a single model. AnCoGen can analyze speech by estimating key attributes, such as speaker identity, pitch, content, loudness, signal-to-noise ratio, and clarity index. In addition, it can generate speech from these attributes and allow precise control of the synthesized speech by modifying them. Extensive experiments demonstrated the effectiveness of AnCoGen across speech analysis-resynthesis, pitch estimation, pitch modification, and speech enhancement. Code and audio examples are available online.

langue originaleAnglais
titre2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2025 - Proceedings
rédacteurs en chefBhaskar D Rao, Isabel Trancoso, Gaurav Sharma, Neelesh B. Mehta
EditeurInstitute of Electrical and Electronics Engineers Inc.
ISBN (Electronique)9798350368741
Les DOIs
étatPublié - 1 janv. 2025
Evénement2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2025 - Hyderabad, Inde
Durée: 6 avr. 202511 avr. 2025

Série de publications

NomICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISSN (imprimé)1520-6149

Une conférence

Une conférence2025 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2025
Pays/TerritoireInde
La villeHyderabad
période6/04/2511/04/25

Empreinte digitale

Examiner les sujets de recherche de « AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation