Aan de slagGa gratis aan de slag

Nieuwe spraak genereren

Tijd om je beheersing van Hugging Face-audiomodellen compleet te maken! Je gaat een fijn-afgesteld model gebruiken om nieuwe spraak te genereren voor een gegeven stem. Je kiest een stem uit het VCTK Corpus als basis voor het nieuwe audiobestand.

De dataset en het SpeechT5ForTextToSpeech-model (model) zijn al geladen, en een make_spectogram()-functie is meegeleverd om te helpen bij het plotten.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Oefeninstructies

  • Laad een voorbeeld van een speaker embedding van index 5 uit de test-dataset.
  • Genereer de spraak uit de verwerkte tekst door inputs, speaker_embedding en vocoder op te geven.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Code bewerken en uitvoeren