Pré-processe o texto com o AutoTokenizer

Você está criando um aplicativo de agricultura de precisão para permitir que os agricultores façam perguntas sobre os problemas que encontram no campo. Você aproveitará um conjunto de dados de perguntas e respostas comuns aos problemas enfrentados pelos agricultores; os campos desse conjunto de dados são

question: questões agrícolas comuns
answers: respostas às perguntas sobre agricultura

Como primeira etapa do treinamento distribuído, você começará pré-processando esse conjunto de dados de texto.

Alguns dados foram pré-carregados:

dataset contém um conjunto de dados de amostra de perguntas e respostas sobre agricultura
AutoTokenizer foi importado de transformers

Este exercício faz parte do curso

Treinamento eficiente de modelos de IA com PyTorch

Ver curso

Instruções do exercício

Carregue um pré-treinamento tokenizer.
Tokenize example["question"] usando o tokenizer.
Aplique a função encode() ao site dataset.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Editar e executar o código