Pre-elabora insiemi di dati audio

Stai migliorando la tua applicazione di agricoltura di precisione permettendo agli agricoltori di controllare i macchinari con comandi vocali. Il sistema dovrebbe riconoscere le parole chiave in comandi come "Turn on the sprinkler irrigation system."

Userai un insieme di dati per il keyword spotting con clip audio di parole chiave come "on". Pre-elabora i file audio in modo che possano essere usati con un modello Transformer pre-addestrato!

Alcuni dati sono già stati caricati:

dataset contiene un insieme di dati di training di esempio con file audio. Contiene già la suddivisione train, quindi non devi specificare train quando usi dataset.
AutoFeatureExtractor è stato importato da transformers.
model è uguale a facebook/wav2vec2-base.
max_duration è definito come 1 secondo.

Questo esercizio fa parte del corso

Efficient AI Model Training with PyTorch

Visualizza corso

Istruzioni dell'esercizio

Carica un feature_extractor pre-addestrato con la classe AutoFeatureExtractor.
Imposta il sampling_rate usando i valori del feature_extractor.
Imposta il max_length degli audio_arrays usando max_duration.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)

Modifica ed esegui il codice