Pré-processe o texto com o AutoTokenizer
Você está criando um aplicativo de agricultura de precisão para permitir que os agricultores façam perguntas sobre os problemas que encontram no campo. Você aproveitará um conjunto de dados de perguntas e respostas comuns aos problemas enfrentados pelos agricultores; os campos desse conjunto de dados são
question
: questões agrícolas comunsanswers
: respostas às perguntas sobre agricultura
Como primeira etapa do treinamento distribuído, você começará pré-processando esse conjunto de dados de texto.
Alguns dados foram pré-carregados:
dataset
contém um conjunto de dados de amostra de perguntas e respostas sobre agriculturaAutoTokenizer
foi importado detransformers
Este exercício faz parte do curso
Treinamento eficiente de modelos de IA com PyTorch
Instruções do exercício
- Carregue um pré-treinamento
tokenizer
. - Tokenize
example["question"]
usando otokenizer
. - Aplique a função
encode()
ao sitedataset
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)