Comece agoraComece grátis

Mapeamento de tokenização

Agora você quer testar a possibilidade de ter mais controle sobre a tokenização e tentar tokenizar os dados em linhas ou lotes. Isso também lhe dará um resultado que é um objeto DataSet, que você precisará para o treinamento.

O tokenizer foi carregado para você junto com os dados como train_data e test_data.

Este exercicio faz parte do curso

Introdução a LLMs em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Editar e Executar Código