IniziaInizia gratis

Generare nuova voce

È il momento di completare la tua padronanza dei modelli audio di Hugging Face! Userai un modello già messo a punto per generare nuova voce a partire da una voce di riferimento. Sceglierai una voce dal VCTK Corpus come base per il nuovo audio.

Il dataset e il modello SpeechT5ForTextToSpeech (model) sono già stati caricati, e ti è stata fornita una funzione make_spectogram() per aiutarti con il grafico.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Carica un embedding del parlante di esempio dall’indice 5 del dataset di test.
  • Genera l’audio dal testo processato specificando inputs, speaker_embedding e vocoder.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

text = "Hi, welcome to your new voice."

# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)

inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")

# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)

make_spectrogram(speech)
Modifica ed esegui il codice