ComenzarEmpieza gratis

Asignación de tokenización

Ahora quieres probar a tener más control sobre la tokenización y quieres probar a tokenizar los datos por filas o lotes. Esto también te dará un resultado que es un objeto DataSet, que necesitarás para el entrenamiento.

El tokenizer se ha cargado para ti junto con los datos como train_data y test_data.

Este ejercicio forma parte del curso

Introduction to LLMs in Python

Ver curso

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Editar y ejecutar código