Pré-processar conjuntos de dados de áudio
Você está aprimorando seu aplicativo de agricultura de precisão ao permitir que os agricultores controlem suas máquinas com comandos de voz. O sistema deve reconhecer palavras-chave em comandos como "Ligar o sistema de irrigação por aspersão".
Você aproveitará um conjunto de dados de detecção de palavras-chave com clipes de áudio de palavras-chave como "on". Pré-processe os arquivos de áudio para que eles possam ser usados com um modelo pré-treinado do Transformer!
Alguns dados foram pré-carregados:
dataset
contém um conjunto de dados de treinamento de amostra de arquivos de áudio. Ele já contém a divisãotrain
, portanto, você não precisa especificartrain
ao usardataset
.AutoFeatureExtractor
foi importado detransformers
.model
é igual afacebook/wav2vec2-base
.max_duration
é definido como 1 segundo.
Este exercício faz parte do curso
Treinamento eficiente de modelos de IA com PyTorch
Instruções do exercício
- Carregue um
feature_extractor
pré-treinado com a classeAutoFeatureExtractor
. - Defina o endereço
sampling_rate
usando as taxas do sitefeature_extractor
. - Defina o endereço
max_length
doaudio_arrays
usandomax_duration
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load a pre-trained feature extractor
feature_extractor = ____.____(model)
def preprocess_function(examples):
audio_arrays = [x["array"] for x in examples["audio"]]
inputs = feature_extractor(
audio_arrays,
# Set the sampling rate
sampling_rate=____.____,
# Set the max length
max_length=int(feature_extractor.sampling_rate * max_duration),
truncation=True)
return inputs
encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)