Prétraitement des données audio
Vous améliorez votre application d'agriculture de précision en permettant aux agriculteurs de contrôler leurs machines à l'aide de commandes vocales. Le système doit reconnaître les mots-clés dans des commandes telles que "Allumer le système d'irrigation par arrosage".
Vous utiliserez un ensemble de données de repérage de mots clés avec des clips audio de mots clés tels que "on". Prétraitez les fichiers audio pour qu'ils puissent être utilisés avec un modèle Transformer pré-entraîné !
Certaines données ont été préchargées :
dataset
contient un échantillon de données d'apprentissage de fichiers audio. Il contient déjà la divisiontrain
, vous n'avez donc pas besoin de spécifiertrain
lorsque vous utilisezdataset
.AutoFeatureExtractor
a été importé detransformers
.model
est égal àfacebook/wav2vec2-base
.max_duration
est défini comme 1 seconde.
Cet exercice fait partie du cours
Entraînement efficace de modèles d'IA avec PyTorch
Instructions
- Chargez un site
feature_extractor
pré-entraîné avec la classeAutoFeatureExtractor
. - Réglez le site
sampling_rate
en utilisant les taux du sitefeature_extractor
. - Réglez le
max_length
duaudio_arrays
à l'aide dumax_duration
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)