Mulai sekarangMulai gratis

Memetakan tokenisasi

Sekarang Anda ingin mencoba memiliki kontrol lebih atas proses tokenisasi dan mencoba melakukan tokenisasi data per baris atau per batch. Ini juga akan menghasilkan objek DataSet, yang Anda perlukan untuk pelatihan.

tokenizer telah dimuat untuk Anda bersama data sebagai train_data dan test_data.

Latihan ini merupakan bagian dari kursus

Pengantar LLM di Python

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Complete the function
def tokenize_function(data):
    return tokenizer(data["interaction"], 
                     ____, 
                     padding=True, 
                     ____, 
                     max_length=64)

tokenized_in_batches = ____
Edit dan Jalankan Kode