CommencerCommencer gratuitement

Prétraiter des jeux de données audio

Vous améliorez votre application d’agriculture de précision en permettant aux agriculteurs de contrôler leur matériel par commandes vocales. Le système doit reconnaître des mots-clés dans des commandes comme « Allumer le système d’irrigation par aspersion. »

Vous allez exploiter un jeu de données de détection de mots-clés avec des extraits audio de mots comme « on ». Prétraitez les fichiers audio pour pouvoir les utiliser avec un modèle Transformer pré-entraîné !

Certaines données ont été préchargées :

  • dataset contient un échantillon de jeu d’entraînement de fichiers audio. Il contient déjà la portion train, vous n’avez donc pas besoin de préciser train lorsque vous utilisez dataset.
  • AutoFeatureExtractor a été importé depuis transformers.
  • model est égal à facebook/wav2vec2-base.
  • max_duration est définie à 1 seconde.

Cet exercice fait partie du cours

Entraîner efficacement des modèles d’IA avec PyTorch

Afficher le cours

Instructions

  • Chargez un feature_extractor pré-entraîné avec la classe AutoFeatureExtractor.
  • Définissez le sampling_rate en utilisant les fréquences du feature_extractor.
  • Définissez le max_length des audio_arrays à l’aide de max_duration.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)
Modifier et exécuter le code