Memetakan tokenisasi
Sekarang Anda ingin mencoba memiliki kontrol lebih atas proses tokenisasi dan mencoba melakukan tokenisasi data per baris atau per batch. Ini juga akan menghasilkan objek DataSet, yang Anda perlukan untuk pelatihan.
tokenizer telah dimuat untuk Anda bersama data sebagai train_data dan test_data.
Latihan ini adalah bagian dari kursus
Pengantar LLM di Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____