Pre-elabora insiemi di dati audio
Stai migliorando la tua applicazione di agricoltura di precisione permettendo agli agricoltori di controllare i macchinari con comandi vocali. Il sistema dovrebbe riconoscere le parole chiave in comandi come "Turn on the sprinkler irrigation system."
Userai un insieme di dati per il keyword spotting con clip audio di parole chiave come "on". Pre-elabora i file audio in modo che possano essere usati con un modello Transformer pre-addestrato!
Alcuni dati sono già stati caricati:
datasetcontiene un insieme di dati di training di esempio con file audio. Contiene già la suddivisionetrain, quindi non devi specificaretrainquando usidataset.AutoFeatureExtractorè stato importato datransformers.modelè uguale afacebook/wav2vec2-base.max_durationè definito come 1 secondo.
Questo esercizio fa parte del corso
Efficient AI Model Training with PyTorch
Istruzioni dell'esercizio
- Carica un
feature_extractorpre-addestrato con la classeAutoFeatureExtractor. - Imposta il
sampling_rateusando i valori delfeature_extractor. - Imposta il
max_lengthdegliaudio_arraysusandomax_duration.
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)