Pré-processar conjuntos de dados de áudio
Você está aprimorando seu aplicativo de agricultura de precisão permitindo que agricultores controlem suas máquinas com comandos de voz. O sistema deve reconhecer palavras-chave em comandos como "Ligar o sistema de irrigação por aspersão."
Você vai usar um conjunto de dados de detecção de palavras-chave com clipes de áudio de termos como "on". Faça o pré-processamento dos arquivos de áudio para que possam ser usados com um modelo Transformer pré-treinado!
Alguns dados já foram pré-carregados:
datasetcontém um conjunto de dados de treinamento de áudio de exemplo. Ele já possui a divisãotrain, então você não precisa especificartrainao usardataset.AutoFeatureExtractorfoi importado detransformers.modelé igual afacebook/wav2vec2-base.max_durationestá definida como 1 segundo.
Este exercício faz parte do curso
Treinamento Eficiente de Modelos de IA com PyTorch
Instruções do exercício
- Carregue um
feature_extractorpré-treinado com a classeAutoFeatureExtractor. - Defina o
sampling_rateusando as taxas dofeature_extractor. - Defina o
max_lengthdeaudio_arraysusandomax_duration.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)