Aan de slagGa gratis aan de slag

Automatische spraakherkenning

In deze oefening gebruik je AI om audio automatisch naar tekst te transcriberen! Je werkt opnieuw met de VCTK Corpus, met ongeveer 44 uur aan spraak van Engelstaligen met verschillende accenten. Je gebruikt OpenAI’s Whisper tiny-model, dat slechts 37M parameters bevat, om de VCTK-audiogegevens te preprocessen en de bijbehorende tekst te genereren.

De audiopreprocessor (processor) is al geladen, net als de module WhisperForConditionalGeneration. Een voorbeeld-audiopunt (sample) is ook al geladen.

Deze oefening maakt deel uit van de cursus

Multi-modale modellen met Hugging Face

Cursus bekijken

Oefeninstructies

  • Laad het voorgetrainde model WhisperForConditionalGeneration met het checkpoint openai/whisper-tiny.
  • Preprocess het datapunt sample met de vereiste samplingfrequentie van 16000.
  • Genereer de tokens uit het model met het attribuut .input_features van de voorbewerkte invoer.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Code bewerken en uitvoeren