BaşlayınÜcretsiz Başlayın

Bir metin veri kümesini tokenleştir

Bir seyahat sitesi için pazar araştırması yapıyorsun ve otel yorumlarını sınıflandırmana yardımcı olacak bir modeli ince ayar (fine-tune) etmek için mevcut bir veri kümesini kullanmak istiyorsun. Bunun için datasets kütüphanesini kullanmaya karar verdin.

transformers içinden AutoTokenizer sınıfı ve datasets içinden load_dataset() önceden içe aktarılmıştır.

Bu egzersiz

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Metni eş boyutlu yığınlar halinde işlemek için tokenizer'a padding ekle.
  • Önceden eğitilmiş GPT tokenizer'ını ve tanımlanan fonksiyonu kullanarak metin verisini tokenleştir.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

dataset = load_dataset("argilla/tripadvisor-hotel-reviews")

tokenizer = AutoTokenizer.from_pretrained("openai-gpt")

# Add padding with the pad token
tokenizer.____

def tokenize_function(examples):
   return tokenizer(examples["text"], padding="max_length", truncation=True)

# Tokenize the dataset
tokenized_datasets = dataset.map(____, batched=True)
Kodu Düzenle ve Çalıştır