Prétraiter des jeux de données audio
Vous améliorez votre application d’agriculture de précision en permettant aux agriculteurs de contrôler leur matériel par commandes vocales. Le système doit reconnaître des mots-clés dans des commandes comme « Allumer le système d’irrigation par aspersion. »
Vous allez exploiter un jeu de données de détection de mots-clés avec des extraits audio de mots comme « on ». Prétraitez les fichiers audio pour pouvoir les utiliser avec un modèle Transformer pré-entraîné !
Certaines données ont été préchargées :
datasetcontient un échantillon de jeu d’entraînement de fichiers audio. Il contient déjà la portiontrain, vous n’avez donc pas besoin de précisertrainlorsque vous utilisezdataset.AutoFeatureExtractora été importé depuistransformers.modelest égal àfacebook/wav2vec2-base.max_durationest définie à 1 seconde.
Cet exercice fait partie du cours
Entraîner efficacement des modèles d’IA avec PyTorch
Instructions
- Chargez un
feature_extractorpré-entraîné avec la classeAutoFeatureExtractor. - Définissez le
sampling_rateen utilisant les fréquences dufeature_extractor. - Définissez le
max_lengthdesaudio_arraysà l’aide demax_duration.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)