Prétraitement des données audio

Vous améliorez votre application d'agriculture de précision en permettant aux agriculteurs de contrôler leurs machines à l'aide de commandes vocales. Le système doit reconnaître les mots-clés dans des commandes telles que "Allumer le système d'irrigation par arrosage".

Vous utiliserez un ensemble de données de repérage de mots clés avec des clips audio de mots clés tels que "on". Prétraitez les fichiers audio pour qu'ils puissent être utilisés avec un modèle Transformer pré-entraîné !

Certaines données ont été préchargées :

dataset contient un échantillon de données d'apprentissage de fichiers audio. Il contient déjà la division train, vous n'avez donc pas besoin de spécifier train lorsque vous utilisez dataset.
AutoFeatureExtractor a été importé de transformers.
model est égal à facebook/wav2vec2-base.
max_duration est défini comme 1 seconde.

Cet exercice fait partie du cours

Entraînement efficace de modèles d'IA avec PyTorch

Afficher le cours

Instructions

Chargez un site feature_extractor pré-entraîné avec la classe AutoFeatureExtractor.
Réglez le site sampling_rate en utilisant les taux du site feature_extractor.
Réglez le max_length du audio_arrays à l'aide du max_duration.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)

Modifier et exécuter le code