Metinleri belirteçleme (tokenization)
Hugging Face'ten önceden eğitilmiş bir modelden yararlanıp, şirketinin destek ekibinden gelen verilerle bunu fine-tune ederek, etkileşimleri churn riski açısından sınıflandırmak istiyorsun. Bu, ekibin önce neye odaklanacağını ve bunu nasıl ele alacağını belirlemesine yardımcı olarak daha proaktif olmalarını sağlar.
Metni belirteçleyerek (tokenize ederek) fine-tuning için eğitim ve test verilerini hazırla.
AutoTokenizer ve AutoModelForSequenceClassification senin için yüklendi.
Bu egzersiz
Python ile LLM'lere Giriş
kursunun bir parçasıdırEgzersiz talimatları
- Fine-tuning'e hazırlık olarak önceden eğitilmiş modeli ve belirteçleyiciyi yükle.
train_data["interaction"]vetest_data["interaction"]için belirteçlemeyi gerçekleştir; padding ve dizi kısaltmayı (sequence truncation) etkinleştir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load the model and tokenizer
model = ____.____("distilbert-base-uncased")
tokenizer = ____.____("distilbert-base-uncased")
# Tokenize the data
tokenized_training_data = ____(train_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
tokenized_test_data = ____(test_data["interaction"], return_tensors="pt", ____, ____, max_length=20)
print(tokenized_training_data)