PCA dalam tidymodels
Dari perspektif pembentukan model, PCA memungkinkan Anda membuat model dengan lebih sedikit fitur, namun tetap menangkap sebagian besar informasi dalam data asli. Namun, seperti yang telah Anda lihat, kelemahan PCA adalah sulitnya menafsirkan model. Pada latihan ini, Anda akan berfokus pada pembangunan model regresi linear menggunakan subset data penjualan rumah. Variabel target adalah price.
Model yang dibangun langsung dari data tanpa mengekstraksi komponen utama memiliki RMSE sebesar $236,461.4. Anda akan menerapkan PCA dengan tidymodels dan membandingkan RMSE yang baru. Ingat, RMSE yang lebih rendah lebih baik.
Pustaka tidyverse dan tidymodels telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Bangun sebuah resep PCA menggunakan
trainuntuk mengekstraksi lima komponen utama. - Fit sebuah alur kerja dengan spesifikasi model
linear_reg()bawaan. - Buat data frame prediksi pengujian menggunakan
testyang berisi nilai aktual dan prediksi. - Hitung RMSE untuk model regresi linear yang direduksi dengan PCA.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Build a PCA recipe
pca_recipe <- ___(___ ~ ___ , data = ___) %>%
___(___()) %>%
___(___(), num_comp = ___)
# Fit a workflow with a default linear_reg() model spec
house_sales_fit <- ___(preprocessor = ___, spec = ___()) %>%
___(___)
# Create prediction df for the test set
house_sales_pred_df <- ___(___, test) %>%
___(test %>% select(___))
# Calculate the RMSE
___(house_sales_pred_df, ___, .pred)