CommencerCommencer gratuitement

Prétraitement audio

Dans cet exercice, vous allez apprendre à ajuster la fréquence d’échantillonnage de données audio et à utiliser un préprocesseur automatique. Vous travaillerez avec le VCTK Corpus, qui comprend environ 44 heures de données vocales prononcées par 110 locuteurs anglophones aux accents variés.

Le dataset a déjà été chargé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Rééchantillonnez l’audio à une fréquence de 16 000 Hz dans le jeu de données à l’aide de la méthode .cast_column().
  • Chargez le processeur audio en utilisant le modèle préentraîné openai/whisper-small.
  • Prétraitez les données audio du premier point de données, en précisant la fréquence d’échantillonnage et

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Modifier et exécuter le code