Preprocesa conjuntos de datos de audio

Estás mejorando tu aplicación de agricultura de precisión para que los agricultores puedan controlar su maquinaria con órdenes de voz. El sistema debe reconocer palabras clave en comandos como "Turn on the sprinkler irrigation system."

Vas a aprovechar un conjunto de datos de keyword spotting con clips de audio de palabras clave como "on". ¡Preprocesa los archivos de audio para poder usarlos con un modelo Transformer preentrenado!

Se han precargado algunos datos:

dataset contiene una muestra del conjunto de entrenamiento con archivos de audio. Ya incluye la partición train, así que no necesitas especificar train al usar dataset.
AutoFeatureExtractor se ha importado desde transformers.
model es igual a facebook/wav2vec2-base.
max_duration está definido como 1 segundo.

Este ejercicio forma parte del curso

Entrenamiento eficiente de modelos de IA con PyTorch

Ver curso

Instrucciones del ejercicio

Carga un feature_extractor preentrenado con la clase AutoFeatureExtractor.
Establece el sampling_rate usando las tasas del feature_extractor.
Define el max_length de audio_arrays usando max_duration.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)

Editar y ejecutar código