Generare nuova voce
È il momento di completare la tua padronanza dei modelli audio di Hugging Face! Userai un modello già messo a punto per generare nuova voce a partire da una voce di riferimento. Sceglierai una voce dal VCTK Corpus come base per il nuovo audio.
Il dataset e il modello SpeechT5ForTextToSpeech (model) sono già stati caricati, e ti è stata fornita una funzione make_spectogram() per aiutarti con il grafico.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Carica un embedding del parlante di esempio dall’indice
5deldatasetdi test. - Genera l’audio dal testo processato specificando
inputs,speaker_embeddingevocoder.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
text = "Hi, welcome to your new voice."
# Load a speaker embedding from the dataset
speaker_embedding = torch.tensor(dataset[5]["____"]).unsqueeze(0)
inputs = processor(text=text, return_tensors="pt")
vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
# Generate speech
speech = model.generate_speech(____["input_ids"], ____, ____=____)
make_spectrogram(speech)