MulaiMulai sekarang secara gratis

Terapkan imputasi median

Pada bab ini, Anda akan menggunakan versi himpunan data Wisconsin Breast Cancer. Himpunan data ini menyajikan masalah klasik klasifikasi biner: 50% sampel jinak, 50% ganas, dan tantangannya adalah mengidentifikasi mana yang mana.

Himpunan data ini menarik karena banyak prediktor berisi nilai hilang dan sebagian besar baris memiliki setidaknya satu nilai hilang. Ini menjadi tantangan pemodelan karena sebagian besar algoritma Machine Learning tidak dapat menangani nilai hilang secara langsung. Misalnya, naluri pertama Anda mungkin menyesuaikan model regresi logistik pada data ini, tetapi sebelum itu Anda memerlukan strategi untuk menangani NA.

Untungnya, fungsi train() di caret memiliki argumen bernama preProcess, yang memungkinkan Anda menentukan bahwa imputasi median digunakan untuk mengisi nilai yang hilang. Pada bab-bab sebelumnya, Anda membuat model dengan fungsi train() menggunakan formula seperti y ~ .. Cara alternatif adalah menentukan argumen x dan y pada train(), di mana x adalah objek dengan sampel pada baris dan fitur pada kolom, dan y adalah vektor numerik atau faktor yang berisi keluaran. Dengan kata lain, x adalah matriks atau data frame yang memuat seluruh himpunan data yang akan Anda gunakan untuk argumen data pada pemanggilan lm(), misalnya, tetapi tidak termasuk kolom variabel respons; y adalah vektor yang hanya berisi kolom variabel respons.

Untuk latihan ini, argumen x ke train() telah dimuat di ruang kerja Anda sebagai breast_cancer_x dan y sebagai breast_cancer_y.

Latihan ini adalah bagian dari kursus

Machine Learning dengan caret di R

Lihat Kursus

Petunjuk latihan

  • Gunakan fungsi train() untuk menyesuaikan model glm bernama median_model pada himpunan data kanker payudara. Gunakan preProcess = "medianImpute" untuk menangani nilai yang hilang.
  • Cetak median_model ke konsol.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Apply median imputation: median_model
median_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print median_model to console
Edit dan Jalankan Kode