Pré-processar conjuntos de dados de áudio
Você está aprimorando seu aplicativo de agricultura de precisão ao permitir que os agricultores controlem suas máquinas com comandos de voz. O sistema deve reconhecer palavras-chave em comandos como "Ligar o sistema de irrigação por aspersão".
Você aproveitará um conjunto de dados de detecção de palavras-chave com clipes de áudio de palavras-chave como "on". Pré-processe os arquivos de áudio para que eles possam ser usados com um modelo pré-treinado do Transformer!
Alguns dados foram pré-carregados:
datasetcontém um conjunto de dados de treinamento de amostra de arquivos de áudio. Ele já contém a divisãotrain, portanto, você não precisa especificartrainao usardataset.AutoFeatureExtractorfoi importado detransformers.modelé igual afacebook/wav2vec2-base.max_durationé definido como 1 segundo.
Este exercício faz parte do curso
Treinamento eficiente de modelos de IA com PyTorch
Instruções do exercício
- Carregue um
feature_extractorpré-treinado com a classeAutoFeatureExtractor. - Defina o endereço
sampling_rateusando as taxas do sitefeature_extractor. - Defina o endereço
max_lengthdoaudio_arraysusandomax_duration.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)