Rimozione del rumore audio
In questo esercizio userai i dati del dataset WHAM, che mescola parlato e rumore di fondo, per generare un nuovo parlato con una voce diversa e senza rumore di fondo!

L'array example_speech e il vettore speaker_embedding della nuova voce sono già stati caricati. Il preprocessore (processor) e il vocoder (vocoder) sono anch'essi disponibili, insieme al modulo SpeechT5ForSpeechToSpeech. È stata fornita una funzione make_spectrogram() per aiutarti con il grafico.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Carica il modello pretrained
SpeechT5ForSpeechToSpeechusando il checkpointmicrosoft/speecht5_vc. - Preprocessa
example_speechcon una frequenza di campionamento di16000. - Genera l'audio ripulito dal rumore usando
.generate_speech().
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____
# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")
# Generate the denoised speech
speech = ____
make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)