MulaiMulai sekarang secara gratis

Pencilan

Sekarang saatnya melihat struktur variabel age. Sebuah histogram ditampilkan di sebelah kanan. Mirip dengan yang Anda lihat di video untuk pendapatan tahunan (annual_inc), ada banyak ruang kosong di sisi kanan plot. Ini merupakan indikasi adanya kemungkinan pencilan. Anda akan melihat scatterplot untuk memverifikasinya. Jika Anda menemukan pencilan, Anda akan menghapusnya.

Jika pencilan terlihat pada beberapa variabel, ada baiknya melihat plot bivariat. Ada kemungkinan pencilan tersebut berasal dari observasi yang sama. Jika demikian, semakin kuat alasan untuk menghapus observasi tersebut karena kemungkinan besar ada informasi yang salah di dalamnya.

Latihan ini adalah bagian dari kursus

Pemodelan Risiko Kredit di R

Lihat Kursus

Petunjuk latihan

  • Buat scatterplot variabel age (melalui loan_data$age) menggunakan fungsi plot(). Beri label sumbu y yang sesuai "Age" menggunakan ylab sebagai argumen kedua.
  • Orang tertua dalam himpunan data ini berusia lebih dari 122 tahun! Dapatkan indeks pencilan ini menggunakan which() dan usia 122 sebagai batas (Anda dapat melakukannya dengan loan_data$age > 122). Simpan ke objek index_highage.
  • Buat himpunan data baru new_data, setelah menghapus observasi dengan usia tinggi menggunakan objek index_highage.
  • Lihat scatterplot bivariat, dengan usia pada sumbu x dan pendapatan tahunan pada sumbu y. Ubah label menjadi "Age" dan "Annual Income" secara berurutan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Plot the age variable


# Save the outlier's index to index_highage


# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]

# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")
Edit dan Jalankan Kode