Optimasi spam SMS
Pipeline yang Anda bangun sebelumnya untuk model spam SMS menggunakan parameter default untuk semua elemen dalam pipeline. Namun, sangat kecil kemungkinannya parameter-parameter ini menghasilkan model yang benar-benar baik. Pada latihan ini, Anda akan menjalankan pipeline dengan beberapa pilihan nilai parameter. Kita akan melakukannya secara sistematis: nilai untuk setiap hyperparameter akan disusun dalam sebuah grid, lalu pipeline dijalankan secara sistematis pada setiap titik di grid tersebut.
Dalam latihan ini Anda akan menyiapkan sebuah grid parameter yang dapat digunakan bersama cross-validation untuk memilih sekumpulan parameter yang baik bagi pengklasifikasi spam SMS.
Berikut ini sudah didefinisikan:
hasher— sebuah objekHashingTF, danlogistic— sebuah objekLogisticRegression.
Latihan ini adalah bagian dari kursus
Machine Learning dengan PySpark
Petunjuk latihan
- Buat sebuah objek pembangun grid parameter.
- Tambahkan titik grid untuk parameter
numFeaturesdanbinarypada objekHashingTF, masing-masing dengan nilai 1024, 4096, dan 16384, serta True dan False. - Tambahkan titik grid untuk parameter
regParamdanelasticNetParampada objekLogisticRegression, masing-masing dengan nilai 0.01, 0.1, 1.0, dan 10.0, serta 0.0, 0.5, dan 1.0. - Bangun grid parameter tersebut.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create parameter grid
params = ____()
# Add grid for hashing trick parameters
params = params.____(____, ____) \
.____(____, ____)
# Add grid for logistic regression parameters
params = params.____(____, ____) \
.____(____, ____)
# Build parameter grid
params = ____.____()