MulaiMulai sekarang secara gratis

Melatih pengklasifikasi spam

Data SMS sekarang telah disiapkan untuk membangun sebuah pengklasifikasi. Secara khusus, berikut yang telah Anda lakukan:

  • menghapus angka dan tanda baca
  • membagi pesan menjadi kata (atau "token")
  • menghapus stop word
  • menerapkan hashing trick dan
  • mengonversinya ke representasi TF-IDF.

Selanjutnya Anda perlu membagi data TF-IDF menjadi himpunan pelatihan dan pengujian. Lalu Anda akan menggunakan data pelatihan untuk menyesuaikan model Logistic Regression dan akhirnya mengevaluasi kinerja model tersebut pada data pengujian.

Data disimpan dalam sms dan LogisticRegression telah diimpor untuk Anda.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Bagi data menjadi himpunan pelatihan dan pengujian dengan rasio 4:1. Atur seed bilangan acak ke 13 untuk memastikan hasil dapat diulang.
  • Buat objek LogisticRegression dan latih pada data pelatihan.
  • Hasilkan prediksi pada data pengujian.
  • Gunakan prediksi tersebut untuk membentuk confusion matrix.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Split the data into training and testing sets
sms_train, sms_test = sms.____(____, ____)

# Fit a Logistic Regression model to the training data
logistic = ____(regParam=0.2).____(____)

# Make predictions on the testing data
prediction = logistic.____(____)

# Create a confusion matrix, comparing predictions to known labels
prediction.groupBy(____, ____).____().____()
Edit dan Jalankan Kode