Mapeamento de tokenização
Agora você quer testar a possibilidade de ter mais controle sobre a tokenização e tentar tokenizar os dados em linhas ou lotes. Isso também lhe dará um resultado que é um objeto DataSet, que você precisará para o treinamento.
O tokenizer foi carregado para você junto com os dados como train_data e test_data.
Este exercício faz parte do curso
Introdução aos LLMs em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____