Prétraitement audio
Dans cet exercice, vous allez apprendre à ajuster la fréquence d’échantillonnage de données audio et à utiliser un préprocesseur automatique. Vous travaillerez avec le VCTK Corpus, qui comprend environ 44 heures de données vocales prononcées par 110 locuteurs anglophones aux accents variés.
Le dataset a déjà été chargé.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Rééchantillonnez l’audio à une fréquence de 16 000 Hz dans le jeu de données à l’aide de la méthode
.cast_column(). - Chargez le processeur audio en utilisant le modèle préentraîné
openai/whisper-small. - Prétraitez les données audio du premier point de données, en précisant la fréquence d’échantillonnage et
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])