LoslegenKostenlos starten

Automatische Spracherkennung

In dieser Übung nutzt du KI, um Audio automatisch in Text umzuwandeln! Du wirst wieder mit dem VCTK-Korpus arbeiten, der etwa 44 Stunden Sprachaufnahmen von Englischsprechern mit verschiedenen Akzenten enthält. Du wirst das kleine Modell „Whisper“ von OpenAI verwenden, das nur 37 Millionen Parameter enthält, um die VCTK-Audiodaten vorzubereiten und den passenden Text zu generieren.

Der Audio-Vorprozessor (processor) wurde geladen, genauso wie das Modul „ WhisperForConditionalGeneration “. Ein Beispiel-Audiodatapunkt (sample) ist schon geladen.

Diese Übung ist Teil des Kurses

<Kurs>Multimodale Modelle mit Hugging Face</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade das vortrainierte Modell „ WhisperForConditionalGeneration ” mit dem Checkpoint „ openai/whisper-tiny ” rein.
  • Bereite die Datenpunkte „ sample ” mit der geforderten Abtastrate „ 16000 ” vor.
  • Generier die Tokens aus dem Modell mit dem Attribut „ .input_features ” der vorverarbeiteten Eingaben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Code bearbeiten und ausführen