ComeçarComece de graça

Mapeamento de tokenização

Agora você quer testar a possibilidade de ter mais controle sobre a tokenização e tentar tokenizar os dados em linhas ou lotes. Isso também lhe dará um resultado que é um objeto DataSet, que você precisará para o treinamento.

O tokenizer foi carregado para você junto com os dados como train_data e test_data.

Este exercício faz parte do curso

Introdução aos LLMs em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Editar e executar o código