Bir metin veri kümesini tokenleştir
Bir seyahat sitesi için pazar araştırması yapıyorsun ve otel yorumlarını sınıflandırmana yardımcı olacak bir modeli ince ayar (fine-tune) etmek için mevcut bir veri kümesini kullanmak istiyorsun. Bunun için datasets kütüphanesini kullanmaya karar verdin.
transformers içinden AutoTokenizer sınıfı ve datasets içinden load_dataset() önceden içe aktarılmıştır.
Bu egzersiz, kursun bir parçasıdır
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
Egzersiz talimatları
- Metni eş boyutlu yığınlar halinde işlemek için tokenizer'a padding ekle.
- Önceden eğitilmiş GPT tokenizer'ını ve tanımlanan fonksiyonu kullanarak metin verisini tokenleştir.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
dataset = load_dataset("argilla/tripadvisor-hotel-reviews")
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Add padding with the pad token
tokenizer.____
def tokenize_function(examples):
return tokenizer(examples["text"], padding="max_length", truncation=True)
# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)