IniziaInizia gratis

Mappare la tokenizzazione

Ora vuoi provare ad avere un controllo maggiore sulla tokenizzazione e testare la tokenizzazione dei dati per righe o in batch. Questo ti restituirà anche un oggetto DataSet, necessario per l'addestramento.

Il tokenizer è già stato caricato per te insieme ai dati come train_data e test_data.

Questo esercizio fa parte del corso

Introduzione agli LLM in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Modifica ed esegui il codice