Prétraitement audio
Dans cet exercice, vous apprendrez à ajuster la fréquence d'échantillonnage des données audio, ainsi qu'à utiliser un préprocesseur automatique. Vous travaillerez avec le corpus VCTK, qui comprend environ 44 heures de données vocales enregistrées par 110 locuteurs anglais présentant divers accents.
Le fichier « dataset
» a déjà été chargé.
Cet exercice fait partie du cours
Modèles multimodaux avec Hugging Face
Instructions
- Rééchantillonnez l'audio à une fréquence de 16 000 Hz dans l'ensemble de données à l'aide de la méthode «
.cast_column()
». - Chargez le processeur audio à l'aide du modèle pré-entraîné
openai/whisper-small
. - Pré-traitez les données audio du premier point de données en spécifiant la fréquence d'échantillonnage et
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])