Memvisualisasikan beberapa variabel penjelas
Regresi logistik juga mendukung beberapa variabel penjelas. Permasalahan pada visualisasi mirip dengan kasus regresi linear: akan cepat menjadi sulit untuk memasukkan lebih banyak variabel numerik dalam plot. Di sini kita melihat kasus dua variabel penjelas numerik, dan solusinya pada dasarnya sama seperti sebelumnya: gunakan warna untuk menandai respons.
Di sini hanya ada dua kemungkinan nilai respons (nol dan satu), dan nanti ketika kita menambahkan respons terprediksi, nilainya berada di antara nol dan satu. Setelah Anda menyertakan respons terprediksi, hal terpenting yang perlu ditentukan dari plot adalah apakah prediksinya mendekati nol atau mendekati satu. Artinya, gradien 2 warna yang dipisah pada 0,5 sangat berguna: respons di atas 0,5 berwarna satu, dan respons di bawah 0,5 berwarna lainnya.
Himpunan data churn bank tersedia sebagai churn; ggplot2 sudah dimuat.
Latihan ini adalah bagian dari kursus
Regresi Tingkat Menengah di R
Petunjuk latihan
- Dengan menggunakan himpunan data
churn, plot kebaruan pembelian,time_since_last_purchase, terhadap lamanya hubungan pelanggan,time_since_first_purchase, diwarnai berdasarkan apakah pelanggan melakukan churn atau tidak,has_churned. - Tambahkan lapisan titik, dengan tingkat transparansi
0.5. - Gunakan gradien 2 warna, dengan titik tengah
0.5. - Gunakan tema hitam-putih.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Using churn, plot recency vs. length of relationship colored by churn status
___ +
# Make it a scatter plot, with transparency 0.5
___ +
# Use a 2-color gradient split at 0.5
___ +
# Use the black and white theme
___