Aykırı değerler
Şimdi age değişkeninin yapısına bakma zamanı. Sağda bir histogram çizili. Videoda yıllık gelir (annual_inc) için gördüğüne benzer şekilde, grafiğin sağ tarafında epey boşluk var. Bu, olası aykırı değerlere işaret eder. Bunu doğrulamak için bir saçılım grafiğine bakacaksın. Aykırı değerler bulursan sileceksin.
Birden fazla değişkende aykırı değerler gözleniyorsa, iki değişkenli grafiklere bakmak faydalı olabilir. Aykırı değerlerin aynı gözleme ait olması mümkün. Eğer öyleyse, bu gözlemi silmek için daha da güçlü bir neden vardır; çünkü içindeki bazı bilgilerin hatalı olma olasılığı yüksektir.
Bu egzersiz
R ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
plot()fonksiyonunu kullanarakagedeğişkeninin (loan_data$age) bir saçılım grafiğini oluştur. İkinci argüman olarakylabkullanıp y-eksenine uygun"Age"etiketini ver.- Bu veri kümesindeki en yaşlı kişi 122 yaşından büyük! which() kullanarak ve 122 yaşını eşik alarak (bunu
loan_data$age > 122ile yapabilirsin) bu aykırı değerin indeksini al. Bunuindex_highagenesnesine ata. - Yüksek yaşlı gözlemi
index_highagenesnesini kullanarak çıkardıktan sonranew_dataadlı yeni bir veri kümesi oluştur. - X-ekseninde yaş, y-ekseninde yıllık gelir olacak şekilde iki değişkenli saçılım grafiğine bak. Etiketleri sırasıyla
"Age"ve"Annual Income"olarak değiştir.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Plot the age variable
# Save the outlier's index to index_highage
# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]
# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")