Melatih pengklasifikasi spam
Data SMS sekarang telah disiapkan untuk membangun sebuah pengklasifikasi. Secara khusus, berikut yang telah Anda lakukan:
- menghapus angka dan tanda baca
- membagi pesan menjadi kata (atau "token")
- menghapus stop word
- menerapkan hashing trick dan
- mengonversinya ke representasi TF-IDF.
Selanjutnya Anda perlu membagi data TF-IDF menjadi himpunan pelatihan dan pengujian. Lalu Anda akan menggunakan data pelatihan untuk menyesuaikan model Logistic Regression dan akhirnya mengevaluasi kinerja model tersebut pada data pengujian.
Data disimpan dalam sms dan LogisticRegression telah diimpor untuk Anda.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Bagi data menjadi himpunan pelatihan dan pengujian dengan rasio 4:1. Atur seed bilangan acak ke 13 untuk memastikan hasil dapat diulang.
- Buat objek
LogisticRegressiondan latih pada data pelatihan. - Hasilkan prediksi pada data pengujian.
- Gunakan prediksi tersebut untuk membentuk confusion matrix.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)
# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)
# Make predictions on the testing data
prediction = logistic.____(____)
# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()