Tokenizasyonu eşlemek
Şimdi tokenizasyonda daha fazla kontrol sahibi olmayı denemek ve verileri satır satır veya toplu halde (batch) tokenleştirmeyi test etmek istiyorsun. Bu aynı zamanda sana eğitim için gerekli olan bir DataSet nesnesi döndürecek.
tokenizer senin için, train_data ve test_data ile birlikte yüklendi.
Bu egzersiz, kursun bir parçasıdır
Python ile LLM'lere Giriş
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Complete the function
def tokenize_function(data):
return tokenizer(data["interaction"],
____,
padding=True,
____,
max_length=64)
tokenized_in_batches = ____