Automatische spraakherkenning
In deze oefening gebruik je AI om audio automatisch naar tekst te transcriberen! Je werkt opnieuw met de VCTK Corpus, met ongeveer 44 uur aan spraak van Engelstaligen met verschillende accenten. Je gebruikt OpenAI’s Whisper tiny-model, dat slechts 37M parameters bevat, om de VCTK-audiogegevens te preprocessen en de bijbehorende tekst te genereren.
De audiopreprocessor (processor) is al geladen, net als de module WhisperForConditionalGeneration. Een voorbeeld-audiopunt (sample) is ook al geladen.
Deze oefening maakt deel uit van de cursus
Multi-modale modellen met Hugging Face
Oefeninstructies
- Laad het voorgetrainde model
WhisperForConditionalGenerationmet het checkpointopenai/whisper-tiny. - Preprocess het datapunt
samplemet de vereiste samplingfrequentie van16000. - Genereer de tokens uit het model met het attribuut
.input_featuresvan de voorbewerkte invoer.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)