Memetakan tokenisasi
Sekarang Anda ingin mencoba memiliki kontrol lebih atas proses tokenisasi dan mencoba melakukan tokenisasi data per baris atau per batch. Ini juga akan menghasilkan objek DataSet, yang Anda perlukan untuk pelatihan.
tokenizer telah dimuat untuk Anda bersama data sebagai train_data dan test_data.
Latihan ini merupakan bagian dari kursus
Pengantar LLM di Python
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____