Pencilan
Sekarang saatnya melihat struktur variabel age. Sebuah histogram ditampilkan di sebelah kanan. Mirip dengan yang Anda lihat di video untuk pendapatan tahunan (annual_inc), ada banyak ruang kosong di sisi kanan plot. Ini merupakan indikasi adanya kemungkinan pencilan. Anda akan melihat scatterplot untuk memverifikasinya. Jika Anda menemukan pencilan, Anda akan menghapusnya.
Jika pencilan terlihat pada beberapa variabel, ada baiknya melihat plot bivariat. Ada kemungkinan pencilan tersebut berasal dari observasi yang sama. Jika demikian, semakin kuat alasan untuk menghapus observasi tersebut karena kemungkinan besar ada informasi yang salah di dalamnya.
Latihan ini adalah bagian dari kursus
Pemodelan Risiko Kredit di R
Petunjuk latihan
- Buat scatterplot variabel
age(melaluiloan_data$age) menggunakan fungsiplot(). Beri label sumbu y yang sesuai"Age"menggunakanylabsebagai argumen kedua. - Orang tertua dalam himpunan data ini berusia lebih dari 122 tahun! Dapatkan indeks pencilan ini menggunakan which() dan usia 122 sebagai batas (Anda dapat melakukannya dengan
loan_data$age > 122). Simpan ke objekindex_highage. - Buat himpunan data baru
new_data, setelah menghapus observasi dengan usia tinggi menggunakan objekindex_highage. - Lihat scatterplot bivariat, dengan usia pada sumbu x dan pendapatan tahunan pada sumbu y. Ubah label menjadi
"Age"dan"Annual Income"secara berurutan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Plot the age variable
# Save the outlier's index to index_highage
# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]
# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")