Mappare la tokenizzazione
Ora vuoi provare ad avere un controllo maggiore sulla tokenizzazione e testare la tokenizzazione dei dati per righe o in batch. Questo ti restituirà anche un oggetto DataSet, necessario per l'addestramento.
Il tokenizer è già stato caricato per te insieme ai dati come train_data e test_data.
Questo esercizio fa parte del corso
Introduzione agli LLM in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____