Melatih pengklasifikasi spam

Data SMS sekarang telah disiapkan untuk membangun sebuah pengklasifikasi. Secara khusus, berikut yang telah Anda lakukan:

menghapus angka dan tanda baca
membagi pesan menjadi kata (atau "token")
menghapus stop word
menerapkan hashing trick dan
mengonversinya ke representasi TF-IDF.

Selanjutnya Anda perlu membagi data TF-IDF menjadi himpunan pelatihan dan pengujian. Lalu Anda akan menggunakan data pelatihan untuk menyesuaikan model Logistic Regression dan akhirnya mengevaluasi kinerja model tersebut pada data pengujian.

Data disimpan dalam sms dan LogisticRegression telah diimpor untuk Anda.

Latihan ini merupakan bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Instruksi latihan

Bagi data menjadi himpunan pelatihan dan pengujian dengan rasio 4:1. Atur seed bilangan acak ke 13 untuk memastikan hasil dapat diulang.
Buat objek LogisticRegression dan latih pada data pelatihan.
Hasilkan prediksi pada data pengujian.
Gunakan prediksi tersebut untuk membentuk confusion matrix.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)

# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)

# Make predictions on the testing data
prediction = logistic.____(____)

# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()

Edit dan Jalankan Kode