ComenzarEmpieza gratis

Eliminación de ruido en audio

En este ejercicio, utilizarás datos del conjunto de datos WHAM, que mezcla voz con ruido de fondo, para generar nueva voz con un tono diferente y sin ruido de fondo.

Espectrograma de voz con ruido

El arreglo example_speech y el vector speaker_embedding de la nueva voz ya se han cargado. El preprocesador (processor) y el vocoder (vocoder) también están disponibles, junto con el módulo SpeechT5ForSpeechToSpeech. Se ha proporcionado una función make_spectrogram() para ayudar a gráficar.

Este ejercicio forma parte del curso

Modelos multimodales con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Carga el modelo preentrenado SpeechT5ForSpeechToSpeech utilizando el punto de control microsoft/speecht5_vc.
  • Preprocesa example_speech con una frecuencia de muestreo de 16000.
  • Genera el discurso sin ruido utilizando el modelo de código de audio ( .generate_speech()).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____

# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")

# Generate the denoised speech
speech = ____

make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)
Editar y ejecutar código