Identifikasi fitur yang sangat berkorelasi
Dengan menggunakan data di house_sales_df, Anda akan berlatih mengidentifikasi fitur yang memiliki korelasi tinggi. Korelasi yang tinggi antar fitur mengindikasikan informasi yang redundan dan dapat menimbulkan masalah dalam pemodelan seperti multikolinearitas pada model regresi. Anda akan menentukan fitur berkorelasi tinggi mana yang perlu dihapus. Matriks korelasi akan membantu Anda mengidentifikasi fitur-fitur yang sangat berkorelasi.
Paket tidyverse dan corrr telah dimuat untuk Anda.
Latihan ini merupakan bagian dari kursus
Reduksi Dimensi di R
Instruksi latihan
- Buat plot korelasi dengan nilai korelasi dicetak pada plot.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create a correlation plot of the house sales
house_sales_df %>%
___() %>%
___() %>%
___(print_cor = ___) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))