Prétraitement des données audio
Vous améliorez votre application d'agriculture de précision en permettant aux agriculteurs de contrôler leurs machines à l'aide de commandes vocales. Le système doit reconnaître les mots-clés dans des commandes telles que "Allumer le système d'irrigation par arrosage".
Vous utiliserez un ensemble de données de repérage de mots clés avec des clips audio de mots clés tels que "on". Prétraitez les fichiers audio pour qu'ils puissent être utilisés avec un modèle Transformer pré-entraîné !
Certaines données ont été préchargées :
datasetcontient un échantillon de données d'apprentissage de fichiers audio. Il contient déjà la divisiontrain, vous n'avez donc pas besoin de spécifiertrainlorsque vous utilisezdataset.AutoFeatureExtractora été importé detransformers.modelest égal àfacebook/wav2vec2-base.max_durationest défini comme 1 seconde.
Cet exercice fait partie du cours
Entraînement efficace de modèles d'IA avec PyTorch
Instructions
- Chargez un site
feature_extractorpré-entraîné avec la classeAutoFeatureExtractor. - Réglez le site
sampling_rateen utilisant les taux du sitefeature_extractor. - Réglez le
max_lengthduaudio_arraysà l'aide dumax_duration.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)