Asignación de tokenización
Ahora quieres probar a tener más control sobre la tokenización y quieres probar a tokenizar los datos por filas o lotes. Esto también te dará un resultado que es un objeto DataSet, que necesitarás para el entrenamiento.
El tokenizer
se ha cargado para ti junto con los datos como train_data
y test_data
.
Este ejercicio forma parte del curso
Introduction to LLMs in Python
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____