Audio-Datensätze vorverarbeiten
Du verbesserst deine Anwendung für die Präzisionslandwirtschaft, indem du Landwirten die Möglichkeit gibst, ihre Maschinen mit Sprachbefehlen zu steuern. Das System sollte Schlüsselwörter in Befehlen wie "Schalte die Bewässerungsanlage ein" erkennen.
Du nutzt einen Keyword-Spotting-Datensatz mit Audioclips zu Keywords wie "on". Verarbeite die Audiodateien so, dass sie mit einem vorher trainierten Transformer-Modell verwendet werden können!
Einige Daten wurden bereits geladen:
datasetenthält einen Trainingsdatensatz mit Audiodateien. Sie enthält bereits dentrainSplit, so dass dutrainnicht angeben musst, wenn dudatasetverwendest.AutoFeatureExtractorwurde vontransformersimportiert.modelist gleichfacebook/wav2vec2-base.max_durationist als 1 Sekunde definiert.
Diese Übung ist Teil des Kurses
Effizientes KI-Modelltraining mit PyTorch
Anleitung zur Übung
- Lade eine vortrainierte
feature_extractormit der KlasseAutoFeatureExtractor. - Stelle die
sampling_ratemit den Raten aus derfeature_extractorein. - Stelle die
max_lengthderaudio_arraysmitmax_durationein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)