Menemukan prediktor yang berkorelasi
Variabel prediktor yang berkorelasi memberikan informasi yang berlebih dan dapat berdampak negatif pada proses pemodelan. Ketika dua variabel sangat berkorelasi, nilainya berubah secara linear satu sama lain sehingga memberikan informasi yang sama kepada algoritme Machine Learning Anda. Fenomena ini dikenal sebagai multikolinearitas.
Sebelum memulai proses pemodelan, penting untuk menelusuri himpunan data Anda guna menemukan hubungan-hubungan ini dan menghapusnya pada langkah rekayasa fitur.
Dalam latihan ini, Anda akan menelusuri himpunan data telecom_training dengan membuat matriks korelasi dari semua variabel prediktor numerik.
Data telecom_training telah dimuat ke sesi Anda.
Latihan ini adalah bagian dari kursus
Pemodelan dengan tidymodels di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
telecom_training %>%
# Select numeric columns
___(___) %>%
# Calculate correlation matrix
___