Eliminación de ruido en audio
En este ejercicio, utilizarás datos del conjunto de datos WHAM, que mezcla voz con ruido de fondo, para generar nueva voz con un tono diferente y sin ruido de fondo.

El arreglo example_speech y el vector speaker_embedding de la nueva voz ya se han cargado. El preprocesador (processor) y el vocoder (vocoder) también están disponibles, junto con el módulo SpeechT5ForSpeechToSpeech. Se ha proporcionado una función make_spectrogram() para ayudar a gráficar.
Este ejercicio forma parte del curso
Modelos multimodales con Hugging Face
Instrucciones del ejercicio
- Carga el modelo preentrenado
SpeechT5ForSpeechToSpeechutilizando el punto de controlmicrosoft/speecht5_vc. - Preprocesa
example_speechcon una frecuencia de muestreo de16000. - Genera el discurso sin ruido utilizando el modelo de código de audio (
.generate_speech()).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____
# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")
# Generate the denoised speech
speech = ____
make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)