Tokenizasyonu eşlemek
Şimdi tokenizasyonda daha fazla kontrol sahibi olmayı denemek ve verileri satır satır veya toplu halde (batch) tokenleştirmeyi test etmek istiyorsun. Bu aynı zamanda sana eğitim için gerekli olan bir DataSet nesnesi döndürecek.
tokenizer senin için, train_data ve test_data ile birlikte yüklendi.
Bu egzersiz
Python ile LLM'lere Giriş
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____