Pelatihan model Logistic Regression

Setelah membuat label dan fitur untuk data, kita siap membangun model yang dapat belajar dari data tersebut (pelatihan). Namun sebelum Anda melatih model, pada bagian terakhir latihan ini, Anda akan membagi data menjadi data pelatihan dan data uji, menjalankan model Logistic Regression pada data pelatihan, dan akhirnya memeriksa akurasi model yang dilatih pada data pelatihan.

Ingat, Anda memiliki SparkContext sc yang tersedia di ruang kerja Anda, serta variabel samples.

Latihan ini merupakan bagian dari kursus

Fundamental Big Data dengan PySpark

Lihat Kursus

Instruksi latihan

Bagi data gabungan menjadi himpunan data pelatihan dan uji dengan rasio 80:20.
Latih model Logistic Regression dengan himpunan data pelatihan.
Buat label prediksi dari model yang telah dilatih pada himpunan data uji.
Gabungkan label pada himpunan data uji dengan label pada himpunan data prediksi menggunakan fungsi zip.
Hitung akurasi model yang dilatih menggunakan label asli dan label prediksi, lalu cetak hasilnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split the data into training and testing
train_samples,test_samples = samples.____([0.8, 0.2])

# Train the model
model = LogisticRegressionWithLBFGS.train(____)

# Create a prediction label from the test data
predictions = model.____(test_samples.map(lambda x: x.features))

# Combine original labels with the predicted labels
labels_and_preds = test_samples.map(lambda x: x.label).zip(____)

# Check the accuracy of the model on the test data
accuracy = labels_and_preds.filter(lambda x: x[0] == x[____]).count() / float(test_samples.count())
print("Model accuracy : {:.2f}".format(____))

Edit dan Jalankan Kode