Générer une nouvelle parole
Il est temps d’achever votre maîtrise des modèles audio Hugging Face ! Vous allez utiliser un modèle affiné pour générer une nouvelle parole à partir d’une voix donnée. Vous choisirez une voix du VCTK Corpus comme base pour le nouvel audio.
Le dataset et le modèle SpeechT5ForTextToSpeech (model) ont déjà été chargés, et une fonction make_spectogram() est fournie pour vous aider à tracer les graphiques.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez un échantillon d’« speaker embedding » à l’index
5dudatasetde test. - Générez la parole à partir du texte prétraité en spécifiant
inputs,speaker_embeddingetvocoder.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)