Preprocesar texto con AutoTokenizer
Estás creando una aplicación de agricultura de precisión para que los agricultores puedan hacer preguntas sobre los problemas que encuentran en el campo. Aprovecharás un conjunto de datos de preguntas y respuestas comunes a los problemas a los que se enfrentan los agricultores; los campos de este conjunto de datos son
question
Preguntas frecuentes sobre agriculturaanswers
respuestas a las preguntas agrícolas
Como primer paso en el entrenamiento distribuido, empezarás preprocesando este conjunto de datos de texto.
Se han precargado algunos datos:
dataset
contiene un conjunto de datos de muestra de preguntas y respuestas agrícolasAutoTokenizer
se ha importado detransformers
Este ejercicio forma parte del curso
Entrenamiento eficiente de modelos de IA con PyTorch
Instrucciones del ejercicio
- Carga un
tokenizer
preentrenado . - Tokeniza
example["question"]
utilizando eltokenizer
. - Aplica la función
encode()
a la páginadataset
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)