CommencerCommencer gratuitement

Reconnaissance automatique de la parole

Dans cet exercice, vous utilisez l’IA pour transcrire automatiquement de l’audio en texte ! Vous allez de nouveau travailler avec le VCTK Corpus, qui contient environ 44 heures d’enregistrements de locuteurs anglais avec divers accents. Vous utiliserez le modèle Whisper tiny d’OpenAI, qui ne compte que 37 M de paramètres, pour prétraiter les données audio VCTK et générer le texte correspondant.

Le préprocesseur audio (processor) a été chargé, tout comme le module WhisperForConditionalGeneration. Un exemple de point de données audio (sample) a déjà été chargé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le modèle préentraîné WhisperForConditionalGeneration avec le point de contrôle openai/whisper-tiny.
  • Prétraitez le point de données sample avec la fréquence d’échantillonnage requise de 16000.
  • Générez les tokens à partir du modèle en utilisant l’attribut .input_features des entrées prétraitées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Modifier et exécuter le code