BaşlayınÜcretsiz Başlayın

Bir spam sınıflandırıcı eğitme

SMS verileri artık bir sınıflandırıcı kurmak için hazır. Özellikle şunları yaptın:

  • sayıları ve noktalama işaretlerini kaldırdın
  • mesajları sözcüklere (veya "token"lara) böldün
  • stop sözcükleri kaldırdın
  • hashing trick uyguladın ve
  • TF-IDF temsiline dönüştürdün.

Sırada TF-IDF verilerini eğitim ve test kümelerine ayırmak var. Ardından eğitim verileriyle bir Logistic Regression modeli eğitecek ve sonunda bu modelin performansını test verileri üzerinde değerlendireceksin.

Veriler sms içinde saklı ve LogisticRegression senin için içe aktarıldı.

Bu egzersiz

PySpark ile Machine Learning

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Verileri 4:1 oranında eğitim ve test kümelerine ayır. Tekrarlanabilirlik için rastgele sayı tohumunu 13 olarak ayarla.
  • Bir LogisticRegression nesnesi oluştur ve eğitim verilerine uygula.
  • Test verileri üzerinde tahminler üret.
  • Tahminleri kullanarak bir karışıklık matrisi (confusion matrix) oluştur.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)

# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)

# Make predictions on the testing data
prediction = logistic.____(____)

# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()
Kodu Düzenle ve Çalıştır