Menggunakan PCA sebagai alternatif nearZeroVar()
Alternatif dari menghapus prediktor dengan varians rendah adalah menjalankan PCA pada himpunan data Anda. Ini kadang lebih disukai karena tidak membuang seluruh data Anda: banyak prediktor dengan varians rendah yang berbeda dapat digabungkan menjadi satu variabel PCA dengan varians tinggi, yang mungkin berdampak positif pada akurasi model Anda.
Ini sangat bermanfaat untuk model linear: opsi pca pada argumen preProcess akan melakukan pemusatan dan penskalaan data Anda, menggabungkan variabel ber-varians rendah, serta memastikan semua prediktor saling ortogonal. Ini menghasilkan himpunan data yang ideal untuk pemodelan regresi linear, dan sering kali dapat meningkatkan akurasi model Anda.
Latihan ini adalah bagian dari kursus
Machine Learning dengan caret di R
Petunjuk latihan
bloodbrain_x dan bloodbrain_y telah dimuat di workspace Anda.
- Latih model
glmpada seluruh himpunan data blood-brain dengan menggunakan opsi"pca"padapreProcess. - Cetak model ke konsol dan periksa hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Fit glm model using PCA: model
model <- train(
x = ___,
y = ___,
method = ___,
preProcess = ___
)
# Print model to console