Logistic Regression model eğitimi
Veri için etiketleri ve özellikleri oluşturduktan sonra, artık ondan öğrenebilecek bir model kurmaya (eğitim) hazırız. Ancak modeli eğitmeden önce, bu egzersizin son kısmında veriyi eğitim ve test olarak bölecek, eğitim verisi üzerinde Logistic Regression modelini çalıştıracak ve son olarak eğitim verisiyle eğitilen modelin doğruluğunu kontrol edeceksin.
Unutma, çalışma alanında bir SparkContext sc ve samples değişkeni hazır.
Bu egzersiz, kursun bir parçasıdır
PySpark ile Big Data Temelleri
Egzersiz talimatları
- Birleşik veriyi %80 eğitim, %20 test olacak şekilde iki veri kümesine ayır.
- Eğitim veri kümesi ile Logistic Regression modelini eğit.
- Test veri kümesi üzerinde, eğitilmiş modelden tahmin etiketleri oluştur.
- Test veri kümesindeki etiketleri, tahmin veri kümesindeki etiketlerle
zipfonksiyonunu kullanarak birleştir. - Orijinal ve tahmin edilen etiketleri kullanarak eğitilmiş modelin doğruluğunu hesapla ve yazdır.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Split the data into training and testing
train_samples,test_samples = samples.____([0.8, 0.2])
# Train the model
model = LogisticRegressionWithLBFGS.train(____)
# Create a prediction label from the test data
predictions = model.____(test_samples.map(lambda x: x.features))
# Combine original labels with the predicted labels
labels_and_preds = test_samples.map(lambda x: x.label).zip(____)
# Check the accuracy of the model on the test data
accuracy = labels_and_preds.filter(lambda x: x[0] == x[____]).count() / float(test_samples.count())
print("Model accuracy : {:.2f}".format(____))