ComenzarEmpieza gratis

Tokeniza un conjunto de datos de texto

Estás trabajando en investigación de mercado para una web de viajes y quieres usar un conjunto de datos existente para afinar un modelo que te ayude a clasificar reseñas de hoteles. Has decidido usar la librería datasets.

La clase AutoTokenizer se ha preimportado desde transformers, y load_dataset() se ha preimportado desde datasets.

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Añade padding al tokenizador para procesar texto en lotes de tamaño uniforme.
  • Tokeniza los datos de texto usando el tokenizador GPT preentrenado y la función definida.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Editar y ejecutar código