Reconnaissance vocale automatique
Dans cet exercice, vous utiliserez l'IA pour transcrire automatiquement un fichier audio en texte. Vous travaillerez à nouveau avec le corpus VCTK, qui comprend environ 44 heures d'enregistrements vocaux réalisés par des locuteurs anglophones présentant divers accents. Vous utiliserez le modèle compact Whisper d'OpenAI, qui ne contient que 37 millions de paramètres, pour prétraiter les données audio VCTK et générer le texte correspondant.
Le préprocesseur audio (processor
) a été chargé, tout comme le module WhisperForConditionalGeneration
. Un exemple de point de données audio (sample
) a déjà été chargé.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le modèle pré-entraîné
WhisperForConditionalGeneration
à l'aide du point de contrôleopenai/whisper-tiny
. - Pré-traitez le point de données «
sample
» avec la fréquence d'échantillonnage requise de16000
. - Générez les jetons à partir du modèle en utilisant l'attribut «
.input_features
» des entrées prétraitées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)