Pré-processar texto com AutoTokenizer
Você está criando um aplicativo de agricultura de precisão para permitir que agricultores façam perguntas sobre problemas que encontram no campo. Você vai aproveitar um conjunto de dados com perguntas e respostas comuns sobre questões enfrentadas por agricultores; os campos nesse conjunto de dados são:
question: perguntas agrícolas comunsanswers: respostas para as perguntas agrícolas
Como primeiro passo no treinamento distribuído, você vai começar pré-processando este conjunto de dados de texto.
Alguns dados já foram carregados:
datasetcontém um conjunto de dados de exemplo com perguntas e respostas de agriculturaAutoTokenizerfoi importado detransformers
Este exercício faz parte do curso
Treinamento Eficiente de Modelos de IA com PyTorch
Instruções do exercício
- Carregue um
tokenizerpré-treinado. - Tokenize
example["question"]usando otokenizer. - Aplique a função
encode()aodataset.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)