Preprocesa conjuntos de datos de audio
Estás mejorando tu aplicación de agricultura de precisión para que los agricultores puedan controlar su maquinaria con órdenes de voz. El sistema debe reconocer palabras clave en comandos como "Turn on the sprinkler irrigation system."
Vas a aprovechar un conjunto de datos de keyword spotting con clips de audio de palabras clave como "on". ¡Preprocesa los archivos de audio para poder usarlos con un modelo Transformer preentrenado!
Se han precargado algunos datos:
datasetcontiene una muestra del conjunto de entrenamiento con archivos de audio. Ya incluye la particióntrain, así que no necesitas especificartrainal usardataset.AutoFeatureExtractorse ha importado desdetransformers.modeles igual afacebook/wav2vec2-base.max_durationestá definido como 1 segundo.
Este ejercicio forma parte del curso
Entrenamiento eficiente de modelos de IA con PyTorch
Instrucciones del ejercicio
- Carga un
feature_extractorpreentrenado con la claseAutoFeatureExtractor. - Establece el
sampling_rateusando las tasas delfeature_extractor. - Define el
max_lengthdeaudio_arraysusandomax_duration.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)