MulaiMulai sekarang secara gratis

Membangun model Logistic Regression

Anda sudah membangun model Decision Tree menggunakan data penerbangan. Sekarang Anda akan membuat model Logistic Regression pada data yang sama.

Tujuannya adalah memprediksi apakah sebuah penerbangan kemungkinan tertunda setidaknya 15 menit (label 1) atau tidak (label 0).

Meskipun Anda memiliki beragam prediktor, untuk saat ini Anda hanya akan menggunakan kolom mon, depart, dan duration. Ini adalah fitur numerik yang dapat langsung digunakan untuk model Logistic Regression. Anda perlu sedikit pekerjaan tambahan sebelum dapat memasukkan fitur kategorikal. Nantikan lanjutannya!

Data telah dipisah menjadi himpunan pelatihan dan pengujian, dan tersedia sebagai flights_train dan flights_test.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Impor kelas untuk membuat classifier Logistic Regression.
  • Buat objek classifier dan latih pada data pelatihan.
  • Buat prediksi untuk data pengujian dan buat confusion matrix.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the logistic regression class
from pyspark.ml.____ import ____

# Create a classifier object and train on training data
logistic = ____().____(____)

# Create predictions for the testing data and show confusion matrix
prediction = ____.____(____)
prediction.groupBy(____, ____).____().show()
Edit dan Jalankan Kode