MulaiMulai sekarang secara gratis

Memetakan tokenisasi

Sekarang Anda ingin mencoba memiliki kontrol lebih atas proses tokenisasi dan mencoba melakukan tokenisasi data per baris atau per batch. Ini juga akan menghasilkan objek DataSet, yang Anda perlukan untuk pelatihan.

tokenizer telah dimuat untuk Anda bersama data sebagai train_data dan test_data.

Latihan ini adalah bagian dari kursus

Pengantar LLM di Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Edit dan Jalankan Kode