Débruitage audio
Dans cet exercice, vous utiliserez les données de l'ensemble WHAM, qui mélange des enregistrements vocaux et des bruits de fond, afin de générer de nouveaux enregistrements vocaux avec une voix différente et sans bruit de fond.
Le tableau example_speech
et le vecteur speaker_embedding
de la nouvelle voix ont déjà été chargés. Le préprocesseur (processor
) et le vocodeur (vocoder
) sont également disponibles, ainsi que le module SpeechT5ForSpeechToSpeech
. Une fonction d'make_spectrogram()
a été fournie pour faciliter la représentation graphique.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le modèle pré-entraîné
SpeechT5ForSpeechToSpeech
à l'aide du point de contrôlemicrosoft/speecht5_vc
. - Pré-traitez l'
example_speech
avec un taux d'échantillonnage de16000
. - Générez la parole débruitée à l'aide de l'
.generate_speech()
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____
# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")
# Generate the denoised speech
speech = ____
make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)