Preprocesa texto con AutoTokenizer
Estás creando una aplicación de agricultura de precisión para que los agricultores puedan hacer preguntas sobre problemas que se encuentran en el campo. Aprovecharás un conjunto de datos con preguntas y respuestas habituales sobre problemas a los que se enfrentan los agricultores; los campos de este conjunto de datos son:
question: preguntas agrícolas frecuentesanswers: respuestas a las preguntas agrícolas
Como primer paso en el entrenamiento distribuido, empezarás preprocesando este conjunto de datos de texto.
Se han precargado algunos datos:
datasetcontiene una muestra de preguntas y respuestas agrícolasAutoTokenizerse ha importado desdetransformers
Este ejercicio forma parte del curso
Entrenamiento eficiente de modelos de IA con PyTorch
Instrucciones del ejercicio
- Carga un
tokenizerpreentrenado. - Tokeniza
example["question"]usando eltokenizer. - Aplica la función
encode()aldataset.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")
def encode(example):
# Tokenize the "question" field of the training example
return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")
# Map the function to the dataset
dataset = ____.____(____, batched=True)
dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)
print(dataset)