ComenzarEmpieza gratis

Preprocesar texto con AutoTokenizer

Estás creando una aplicación de agricultura de precisión para que los agricultores puedan hacer preguntas sobre los problemas que encuentran en el campo. Aprovecharás un conjunto de datos de preguntas y respuestas comunes a los problemas a los que se enfrentan los agricultores; los campos de este conjunto de datos son

  • questionPreguntas frecuentes sobre agricultura
  • answersrespuestas a las preguntas agrícolas

Como primer paso en el entrenamiento distribuido, empezarás preprocesando este conjunto de datos de texto.

Se han precargado algunos datos:

  • dataset contiene un conjunto de datos de muestra de preguntas y respuestas agrícolas
  • AutoTokenizer se ha importado de transformers

Este ejercicio forma parte del curso

Entrenamiento eficiente de modelos de IA con PyTorch

Ver curso

Instrucciones del ejercicio

  • Carga un tokenizer preentrenado .
  • Tokeniza example["question"] utilizando el tokenizer.
  • Aplica la función encode() a la página dataset.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Load a pre-trained tokenizer
tokenizer = ____.____("distilbert-base-uncased")

def encode(example):
    # Tokenize the "question" field of the training example
    return ____(____["____"], padding="max_length", truncation=True, return_tensors="pt")

# Map the function to the dataset
dataset = ____.____(____, batched=True)

dataset = dataset.map(lambda example: {"labels": example["answers"]}, batched=True)

print(dataset)
Editar y ejecutar código