Preprocesa texto con AutoTokenizer

Estás creando una aplicación de agricultura de precisión para que los agricultores puedan hacer preguntas sobre problemas que se encuentran en el campo. Aprovecharás un conjunto de datos con preguntas y respuestas habituales sobre problemas a los que se enfrentan los agricultores; los campos de este conjunto de datos son:

question: preguntas agrícolas frecuentes
answers: respuestas a las preguntas agrícolas

Como primer paso en el entrenamiento distribuido, empezarás preprocesando este conjunto de datos de texto.

Se han precargado algunos datos:

dataset contiene una muestra de preguntas y respuestas agrícolas
AutoTokenizer se ha importado desde transformers

Este ejercicio forma parte del curso

Entrenamiento eficiente de modelos de IA con PyTorch

Ver curso

Instrucciones del ejercicio

Carga un tokenizer preentrenado.
Tokeniza example["question"] usando el tokenizer.
Aplica la función encode() al dataset.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)

Editar y ejecutar código