CommencerCommencer gratuitement

Reconnaissance vocale automatique

Dans cet exercice, vous utiliserez l'IA pour transcrire automatiquement un fichier audio en texte. Vous travaillerez à nouveau avec le corpus VCTK, qui comprend environ 44 heures d'enregistrements vocaux réalisés par des locuteurs anglophones présentant divers accents. Vous utiliserez le modèle compact Whisper d'OpenAI, qui ne contient que 37 millions de paramètres, pour prétraiter les données audio VCTK et générer le texte correspondant.

Le préprocesseur audio (processor) a été chargé, tout comme le module WhisperForConditionalGeneration. Un exemple de point de données audio (sample) a déjà été chargé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Chargez le modèle pré-entraîné WhisperForConditionalGeneration à l'aide du point de contrôle openai/whisper-tiny.
  • Pré-traitez le point de données « sample » avec la fréquence d'échantillonnage requise de 16000.
  • Générez les jetons à partir du modèle en utilisant l'attribut « .input_features » des entrées prétraitées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Modifier et exécuter le code