CommencerCommencer gratuitement

Prétraitement audio

Dans cet exercice, vous apprendrez à ajuster la fréquence d'échantillonnage des données audio, ainsi qu'à utiliser un préprocesseur automatique. Vous travaillerez avec le corpus VCTK, qui comprend environ 44 heures de données vocales enregistrées par 110 locuteurs anglais présentant divers accents.

Le fichier « dataset » a déjà été chargé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

  • Rééchantillonnez l'audio à une fréquence de 16 000 Hz dans l'ensemble de données à l'aide de la méthode « .cast_column() ».
  • Chargez le processeur audio à l'aide du modèle pré-entraîné openai/whisper-small.
  • Pré-traitez les données audio du premier point de données en spécifiant la fréquence d'échantillonnage et

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Modifier et exécuter le code