IniziaInizia gratis

Rimozione del rumore audio

In questo esercizio userai i dati del dataset WHAM, che mescola parlato e rumore di fondo, per generare un nuovo parlato con una voce diversa e senza rumore di fondo!

Spettrogramma di parlato rumoroso

L'array example_speech e il vettore speaker_embedding della nuova voce sono già stati caricati. Il preprocessore (processor) e il vocoder (vocoder) sono anch'essi disponibili, insieme al modulo SpeechT5ForSpeechToSpeech. È stata fornita una funzione make_spectrogram() per aiutarti con il grafico.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il modello pretrained SpeechT5ForSpeechToSpeech usando il checkpoint microsoft/speecht5_vc.
  • Preprocessa example_speech con una frequenza di campionamento di 16000.
  • Genera l'audio ripulito dal rumore usando .generate_speech().

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____

# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")

# Generate the denoised speech
speech = ____

make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)
Modifica ed esegui il codice