LoslegenKostenlos loslegen

Audio-Datensätze vorverarbeiten

Du verbesserst deine Anwendung für die Präzisionslandwirtschaft, indem du Landwirten die Möglichkeit gibst, ihre Maschinen mit Sprachbefehlen zu steuern. Das System sollte Schlüsselwörter in Befehlen wie "Schalte die Bewässerungsanlage ein" erkennen.

Du nutzt einen Keyword-Spotting-Datensatz mit Audioclips zu Keywords wie "on". Verarbeite die Audiodateien so, dass sie mit einem vorher trainierten Transformer-Modell verwendet werden können!

Einige Daten wurden bereits geladen:

  • dataset enthält einen Trainingsdatensatz mit Audiodateien. Sie enthält bereits den train Split, so dass du train nicht angeben musst, wenn du dataset verwendest.
  • AutoFeatureExtractor wurde von transformers importiert.
  • model ist gleich facebook/wav2vec2-base.
  • max_duration ist als 1 Sekunde definiert.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Lade eine vortrainierte feature_extractor mit der Klasse AutoFeatureExtractor.
  • Stelle die sampling_rate mit den Raten aus der feature_extractor ein.
  • Stelle die max_length der audio_arrays mit max_duration ein.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)
Code bearbeiten und ausführen