BaşlayınÜcretsiz Başlayın

Aykırı değerler

Şimdi age değişkeninin yapısına bakma zamanı. Sağda bir histogram çizili. Videoda yıllık gelir (annual_inc) için gördüğüne benzer şekilde, grafiğin sağ tarafında epey boşluk var. Bu, olası aykırı değerlere işaret eder. Bunu doğrulamak için bir saçılım grafiğine bakacaksın. Aykırı değerler bulursan sileceksin.

Birden fazla değişkende aykırı değerler gözleniyorsa, iki değişkenli grafiklere bakmak faydalı olabilir. Aykırı değerlerin aynı gözleme ait olması mümkün. Eğer öyleyse, bu gözlemi silmek için daha da güçlü bir neden vardır; çünkü içindeki bazı bilgilerin hatalı olma olasılığı yüksektir.

Bu egzersiz

R ile Kredi Riski Modellemesi

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • plot() fonksiyonunu kullanarak age değişkeninin (loan_data$age) bir saçılım grafiğini oluştur. İkinci argüman olarak ylab kullanıp y-eksenine uygun "Age" etiketini ver.
  • Bu veri kümesindeki en yaşlı kişi 122 yaşından büyük! which() kullanarak ve 122 yaşını eşik alarak (bunu loan_data$age > 122 ile yapabilirsin) bu aykırı değerin indeksini al. Bunu index_highage nesnesine ata.
  • Yüksek yaşlı gözlemi index_highage nesnesini kullanarak çıkardıktan sonra new_data adlı yeni bir veri kümesi oluştur.
  • X-ekseninde yaş, y-ekseninde yıllık gelir olacak şekilde iki değişkenli saçılım grafiğine bak. Etiketleri sırasıyla "Age" ve "Annual Income" olarak değiştir.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Plot the age variable


# Save the outlier's index to index_highage


# Create data set new_data with outlier deleted
new_data <- loan_data[-___, ]

# Make bivariate scatterplot of age and annual income
plot(loan_data$age, loan_data$annual_inc, xlab = "___", ylab = "___")
Kodu Düzenle ve Çalıştır