Génération de nouveaux discours
Il est temps de parfaire votre maîtrise des modèles audio Hugging Face ! Vous utiliserez un modèle perfectionné pour générer un nouveau discours pour une voix donnée. Vous choisirez une voix dans le corpus VCTK qui servira de base à votre nouvel enregistrement audio.
Les modèles « dataset
» et « SpeechT5ForTextToSpeech
» (model
) ont déjà été chargés, et une fonction « make_spectogram()
» a été fournie pour faciliter la création de graphiques.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez un exemple d'intégration de haut-parleur à partir de l'index
5
du fichier testdataset
. - Générez le discours à partir du texte traité en spécifiant les paramètres «
inputs
», «speaker_embedding
» et «vocoder
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)