Aan de slagGa gratis aan de slag

Audioreiniging (denoising)

In deze oefening ga je data gebruiken uit de WHAM-gegevensset, waarin spraak wordt gemixt met achtergrondgeluid, om nieuwe spraak te genereren in een andere stem én zonder het achtergrondgeluid!

Spectrogram of noisy speech

De array example_speech en de vector speaker_embedding van de nieuwe stem zijn al geladen. De preprocessor (processor) en vocoder (vocoder) zijn ook beschikbaar, samen met de module SpeechT5ForSpeechToSpeech. Er is een functie make_spectrogram() meegeleverd om te helpen bij het plotten.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Oefeninstructies

  • Laad het voorgetrainde model SpeechT5ForSpeechToSpeech met het microsoft/speecht5_vc-checkpoint.
  • Verwerk example_speech voor met een samplingfrequentie van 16000.
  • Genereer de opgeschoonde spraak met .generate_speech().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the SpeechT5ForSpeechToSpeech pretrained model
model = ____

# Preprocess the example speech
inputs = ____(audio=____, sampling_rate=____, return_tensors="pt")

# Generate the denoised speech
speech = ____

make_spectrogram(speech)
sf.write("speech.wav", speech.numpy(), samplerate=16000)
Code bewerken en uitvoeren