Automatische Spracherkennung
In dieser Übung nutzt du KI, um Audio automatisch in Text umzuwandeln! Du wirst wieder mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachaufnahmen von Englischsprechern mit verschiedenen Akzenten enthält. Du wirst das kleine Modell „Whisper“ von OpenAI verwenden, das nur 37 Millionen Parameter enthält, um die VCTK-Audiodaten vorzubereiten und den passenden Text zu generieren.
Der Audio-Vorprozessor (processor) wurde geladen, genauso wie das Modul „ WhisperForConditionalGeneration “. Ein Beispiel-Audiodatapunkt (sample) ist schon geladen.
Diese Übung ist Teil des Kurses
Multimodale Modelle mit Hugging Face
Anleitung zur Übung
- Lade das vortrainierte Modell „
WhisperForConditionalGeneration” mit dem Checkpoint „openai/whisper-tiny” rein. - Bereite die Datenpunkte „
sample” mit der geforderten Abtastrate „16000” vor. - Generier die Tokens aus dem Modell mit dem Attribut „
.input_features” der vorverarbeiteten Eingaben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)