MulaiMulai sekarang secara gratis

Optimasi spam SMS

Pipeline yang Anda bangun sebelumnya untuk model spam SMS menggunakan parameter default untuk semua elemen dalam pipeline. Namun, sangat kecil kemungkinannya parameter-parameter ini menghasilkan model yang benar-benar baik. Pada latihan ini, Anda akan menjalankan pipeline dengan beberapa pilihan nilai parameter. Kita akan melakukannya secara sistematis: nilai untuk setiap hyperparameter akan disusun dalam sebuah grid, lalu pipeline dijalankan secara sistematis pada setiap titik di grid tersebut.

Dalam latihan ini Anda akan menyiapkan sebuah grid parameter yang dapat digunakan bersama cross-validation untuk memilih sekumpulan parameter yang baik bagi pengklasifikasi spam SMS.

Berikut ini sudah didefinisikan:

  • hasher — sebuah objek HashingTF, dan
  • logistic — sebuah objek LogisticRegression.

Latihan ini adalah bagian dari kursus

Machine Learning dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat sebuah objek pembangun grid parameter.
  • Tambahkan titik grid untuk parameter numFeatures dan binary pada objek HashingTF, masing-masing dengan nilai 1024, 4096, dan 16384, serta True dan False.
  • Tambahkan titik grid untuk parameter regParam dan elasticNetParam pada objek LogisticRegression, masing-masing dengan nilai 0.01, 0.1, 1.0, dan 10.0, serta 0.0, 0.5, dan 1.0.
  • Bangun grid parameter tersebut.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create parameter grid
params = ____()

# Add grid for hashing trick parameters
params = params.____(____, ____) \
               .____(____, ____)

# Add grid for logistic regression parameters
params = params.____(____, ____) \
               .____(____, ____)

# Build parameter grid
params = ____.____()
Edit dan Jalankan Kode