BaşlayınÜcretsiz Başlayın

Metinleri belirteçleme (tokenization)

Hugging Face'ten önceden eğitilmiş bir modelden yararlanıp, şirketinin destek ekibinden gelen verilerle bunu fine-tune ederek, etkileşimleri churn riski açısından sınıflandırmak istiyorsun. Bu, ekibin önce neye odaklanacağını ve bunu nasıl ele alacağını belirlemesine yardımcı olarak daha proaktif olmalarını sağlar.

Metni belirteçleyerek (tokenize ederek) fine-tuning için eğitim ve test verilerini hazırla.

AutoTokenizer ve AutoModelForSequenceClassification senin için yüklendi.

Bu egzersiz

Python ile LLM'lere Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Fine-tuning'e hazırlık olarak önceden eğitilmiş modeli ve belirteçleyiciyi yükle.
  • train_data["interaction"] ve test_data["interaction"] için belirteçlemeyi gerçekleştir; padding ve dizi kısaltmayı (sequence truncation) etkinleştir.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")

# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)

print(tokenized_training_data)
Kodu Düzenle ve Çalıştır