Audiodatensätze vorverarbeiten
Du verbesserst deine Anwendung für Präzisionslandwirtschaft, damit Landwirt:innen ihre Maschinen per Sprachbefehl steuern können. Das System soll Schlüsselwörter in Befehlen wie „Turn on the sprinkler irrigation system.“ erkennen.
Du nutzt dafür einen Keyword-Spotting-Datensatz mit Audioclips von Schlüsselwörtern wie „on“. Verarbeite die Audiodateien vor, damit sie mit einem vortrainierten Transformer-Modell verwendet werden können!
Einige Daten wurden bereits geladen:
datasetenthält einen Beispiel-Trainingsdatensatz mit Audiodateien. Er enthält bereits dentrain-Split, du mussttrainalso nicht angeben, wenn dudatasetverwendest.AutoFeatureExtractorwurde austransformersimportiert.modelistfacebook/wav2vec2-base.max_durationist auf 1 Sekunde festgelegt.
Diese Übung ist Teil des Kurses
Effizientes KI-Modelltraining mit PyTorch
Anleitung zur Übung
- Lade einen vortrainierten
feature_extractormit der KlasseAutoFeatureExtractor. - Setze die
sampling_rateanhand der Werte aus demfeature_extractor. - Setze die
max_lengthderaudio_arraysmithilfe vonmax_duration.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)