Nieuwe spraak genereren
Tijd om je beheersing van Hugging Face-audiomodellen compleet te maken! Je gaat een fijn-afgesteld model gebruiken om nieuwe spraak te genereren voor een gegeven stem. Je kiest een stem uit het VCTK Corpus als basis voor het nieuwe audiobestand.
De dataset en het SpeechT5ForTextToSpeech-model (model) zijn al geladen, en een make_spectogram()-functie is meegeleverd om te helpen bij het plotten.
Deze oefening maakt deel uit van de cursus
Multi-modale modellen met Hugging Face
Oefeninstructies
- Laad een voorbeeld van een speaker embedding van index
5uit de test-dataset. - Genereer de spraak uit de verwerkte tekst door
inputs,speaker_embeddingenvocoderop te geven.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)