CommencerCommencez gratuitement

Réduction de bruit audio

Dans cet exercice, vous allez utiliser des données du jeu de données WHAM, qui mélange la parole avec du bruit de fond, pour générer une nouvelle parole dans une voix différente et sans le bruit de fond !

Spectrogram of noisy speech

Le tableau example_speech et le vecteur speaker_embedding de la nouvelle voix ont déjà été chargés. Le préprocesseur (processor) et le vocoder (vocoder) sont également disponibles, ainsi que le module SpeechT5ForSpeechToSpeech. Une fonction make_spectrogram() vous est fournie pour faciliter l’affichage des graphiques.

Cet exercice fait partie du cours

<cours>Modèles multimodaux avec Hugging Face</cours>
Voir le cours

Instructions de l’exercice

  • Chargez le modèle préentraîné SpeechT5ForSpeechToSpeech avec le checkpoint microsoft/speecht5_vc.
  • Prétraitez example_speech avec une fréquence d’échantillonnage de 16000.
  • Générez la parole débruitée à l’aide de .generate_speech().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____

# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")

# Generate the denoised speech
speech = ____

make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)
Modifier et exécuter le code