Bir metin veri kümesini tokenleştir
Bir seyahat sitesi için pazar araştırması yapıyorsun ve otel yorumlarını sınıflandırmana yardımcı olacak bir modeli ince ayar (fine-tune) etmek için mevcut bir veri kümesini kullanmak istiyorsun. Bunun için datasets kütüphanesini kullanmaya karar verdin.
transformers içinden AutoTokenizer sınıfı ve datasets içinden load_dataset() önceden içe aktarılmıştır.
Bu egzersiz
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
kursunun bir parçasıdırEgzersiz talimatları
- Metni eş boyutlu yığınlar halinde işlemek için tokenizer'a padding ekle.
- Önceden eğitilmiş GPT tokenizer'ını ve tanımlanan fonksiyonu kullanarak metin verisini tokenleştir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
dataset = load_dataset("argilla/tripadvisor-hotel-reviews")
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
# Add padding with the pad token
tokenizer.____
def tokenize_function(examples):
return tokenizer(examples["text"], padding="max_length", truncation=True)
# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)