Pré-processar conjuntos de dados de áudio

Você está aprimorando seu aplicativo de agricultura de precisão ao permitir que os agricultores controlem suas máquinas com comandos de voz. O sistema deve reconhecer palavras-chave em comandos como "Ligar o sistema de irrigação por aspersão".

Você aproveitará um conjunto de dados de detecção de palavras-chave com clipes de áudio de palavras-chave como "on". Pré-processe os arquivos de áudio para que eles possam ser usados com um modelo pré-treinado do Transformer!

Alguns dados foram pré-carregados:

dataset contém um conjunto de dados de treinamento de amostra de arquivos de áudio. Ele já contém a divisão train, portanto, você não precisa especificar train ao usar dataset.
AutoFeatureExtractor foi importado de transformers.
model é igual a facebook/wav2vec2-base.
max_duration é definido como 1 segundo.

Este exercício faz parte do curso

Treinamento eficiente de modelos de IA com PyTorch

Ver curso

Instruções do exercício

Carregue um feature_extractor pré-treinado com a classe AutoFeatureExtractor.
Defina o endereço sampling_rate usando as taxas do site feature_extractor.
Defina o endereço max_length do audio_arrays usando max_duration.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load a pre-trained feature extractor
feature_extractor = ____.____(model)

def preprocess_function(examples):
    audio_arrays = [x["array"] for x in examples["audio"]]
    inputs = feature_extractor(
        audio_arrays,
        # Set the sampling rate
        sampling_rate=____.____, 
        # Set the max length
        max_length=int(feature_extractor.sampling_rate * max_duration), 
        truncation=True)
    return inputs

encoded_dataset = dataset.map(preprocess_function, remove_columns=["audio", "file"], batched=True)

Editar e executar o código