Audio-Datensätze vorverarbeiten
Du verbesserst deine Anwendung für die Präzisionslandwirtschaft, indem du Landwirten die Möglichkeit gibst, ihre Maschinen mit Sprachbefehlen zu steuern. Das System sollte Schlüsselwörter in Befehlen wie "Schalte die Bewässerungsanlage ein" erkennen.
Du nutzt einen Keyword-Spotting-Datensatz mit Audioclips zu Keywords wie "on". Verarbeite die Audiodateien so, dass sie mit einem vorher trainierten Transformer-Modell verwendet werden können!
Einige Daten wurden bereits geladen:
dataset
enthält einen Trainingsdatensatz mit Audiodateien. Sie enthält bereits dentrain
Split, so dass dutrain
nicht angeben musst, wenn dudataset
verwendest.AutoFeatureExtractor
wurde vontransformers
importiert.model
ist gleichfacebook/wav2vec2-base
.max_duration
ist als 1 Sekunde definiert.
Diese Übung ist Teil des Kurses
Effizientes KI-Modelltraining mit PyTorch
Anleitung zur Übung
- Lade eine vortrainierte
feature_extractor
mit der KlasseAutoFeatureExtractor
. - Stelle die
sampling_rate
mit den Raten aus derfeature_extractor
ein. - Stelle die
max_length
deraudio_arrays
mitmax_duration
ein.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)