CommencerCommencer gratuitement

Débruitage audio

Dans cet exercice, vous utiliserez les données de l'ensemble WHAM, qui mélange des enregistrements vocaux et des bruits de fond, afin de générer de nouveaux enregistrements vocaux avec une voix différente et sans bruit de fond.

Spectrogramme d'un discours bruyant

Le tableau example_speech et le vecteur speaker_embedding de la nouvelle voix ont déjà été chargés. Le préprocesseur (processor) et le vocodeur (vocoder) sont également disponibles, ainsi que le module SpeechT5ForSpeechToSpeech. Une fonction d'make_spectrogram() a été fournie pour faciliter la représentation graphique.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le modèle pré-entraîné SpeechT5ForSpeechToSpeech à l'aide du point de contrôle microsoft/speecht5_vc.
  • Pré-traitez l'example_speech avec un taux d'échantillonnage de 16000.
  • Générez la parole débruitée à l'aide de l'.generate_speech().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____

# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")

# Generate the denoised speech
speech = ____

make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)
Modifier et exécuter le code