ComeçarComece de graça

Pré-processar texto com AutoTokenizer

Você está criando um aplicativo de agricultura de precisão para permitir que agricultores façam perguntas sobre problemas que encontram no campo. Você vai aproveitar um conjunto de dados com perguntas e respostas comuns sobre questões enfrentadas por agricultores; os campos nesse conjunto de dados são:

  • question: perguntas agrícolas comuns
  • answers: respostas para as perguntas agrícolas

Como primeiro passo no treinamento distribuído, você vai começar pré-processando este conjunto de dados de texto.

Alguns dados já foram carregados:

  • dataset contém um conjunto de dados de exemplo com perguntas e respostas de agricultura
  • AutoTokenizer foi importado de transformers

Este exercício faz parte do curso

Treinamento Eficiente de Modelos de IA com PyTorch

Ver curso

Instruções do exercício

  • Carregue um tokenizer pré-treinado.
  • Tokenize example["question"] usando o tokenizer.
  • Aplique a função encode() ao dataset.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Editar e executar o código