Reconnaissance automatique de la parole
Dans cet exercice, vous utilisez l’IA pour transcrire automatiquement de l’audio en texte ! Vous allez de nouveau travailler avec le VCTK Corpus, qui contient environ 44 heures d’enregistrements de locuteurs anglais avec divers accents. Vous utiliserez le modèle Whisper tiny d’OpenAI, qui ne compte que 37 M de paramètres, pour prétraiter les données audio VCTK et générer le texte correspondant.
Le préprocesseur audio (processor) a été chargé, tout comme le module WhisperForConditionalGeneration. Un exemple de point de données audio (sample) a déjà été chargé.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Chargez le modèle préentraîné
WhisperForConditionalGenerationavec le point de contrôleopenai/whisper-tiny. - Prétraitez le point de données
sampleavec la fréquence d’échantillonnage requise de16000. - Générez les tokens à partir du modèle en utilisant l’attribut
.input_featuresdes entrées prétraitées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)