Buat resep korelasi tinggi
Setelah Anda mengidentifikasi fitur yang sangat berkorelasi, alih-alih menghapusnya secara manual, Anda dapat menggunakan langkah resep step_corr() di tidymodels. step_corr() tidak menghapus semua fitur yang berkorelasi dengan fitur lain. Langkah ini berupaya menghapus sesedikit mungkin fitur. Secara konseptual, seperti yang Anda lihat pada latihan pilihan ganda, langkah ini menghapus fitur yang paling banyak tumpang tindih informasinya dengan kombinasi fitur lain mana pun. Gagasannya adalah bahwa fitur-fitur lain memuat informasi yang sama, sehingga informasi yang tumpang tindih dari fitur yang dihapus tetap terwakili dalam fitur-fitur lainnya.
Paket tidyverse dan tidymodels telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Buat resep yang menggunakan
step_corr()dengan ambang 0,7, menerapkan langkah tersebut hanya pada prediktor numerik. - Terapkan resep ke
house_sales_dfdan simpan data yang telah difilter ke dalamfiltered_house_sales_df. - Gunakan
tidy()untuk mengidentifikasi kolom atau kolom-kolom yang dihapus oleh filterstep_corr().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)