LoslegenKostenlos loslegen

Audiodatensätze vorverarbeiten

Du verbesserst deine Anwendung für Präzisionslandwirtschaft, damit Landwirt:innen ihre Maschinen per Sprachbefehl steuern können. Das System soll Schlüsselwörter in Befehlen wie „Turn on the sprinkler irrigation system.“ erkennen.

Du nutzt dafür einen Keyword-Spotting-Datensatz mit Audioclips von Schlüsselwörtern wie „on“. Verarbeite die Audiodateien vor, damit sie mit einem vortrainierten Transformer-Modell verwendet werden können!

Einige Daten wurden bereits geladen:

  • dataset enthält einen Beispiel-Trainingsdatensatz mit Audiodateien. Er enthält bereits den train-Split, du musst train also nicht angeben, wenn du dataset verwendest.
  • AutoFeatureExtractor wurde aus transformers importiert.
  • model ist facebook/wav2vec2-base.
  • max_duration ist auf 1 Sekunde festgelegt.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Kurs anzeigen

Anleitung zur Übung

  • Lade einen vortrainierten feature_extractor mit der Klasse AutoFeatureExtractor.
  • Setze die sampling_rate anhand der Werte aus dem feature_extractor.
  • Setze die max_length der audio_arrays mithilfe von max_duration.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)
Code bearbeiten und ausführen