Kredi verilerini keşfetme
Bu dersteki egzersizler boyunca videoda anlatılan loan_data veri kümesini inceleyeceğiz.
loan_data verisini aldıktan sonra özellikle veri kümesindeki temerrüde düşen kredilerle ilgileniyorsun. Temerrüt sayısını ve yüzdesini görmek istiyorsun. Temerrütler nadirdir, bu yüzden bir kredi veri kümesinde temerrüt oranını her zaman kontrol etmelisin. Burada CrossTable() fonksiyonu oldukça kullanışlıdır.
Temerrüt bilgisinin loan_status yanıt değişkeninde saklandığını unutma; 1 bir default (temerrüt), 0 ise non-default (temerrütsüz) anlamına gelir.
Değişken yapılarını daha iyi anlamak ve beklenmedik eğilimleri yakalamak için, loan_status ile bazı factor değişkenleri arasındaki ilişkiye bakmalısın. Örneğin, grade G (en kötü kredi derecesi) grubundaki temerrüt oranının, grade A (en iyi kredi derecesi) grubundaki temerrüt oranından belirgin şekilde daha yüksek olmasını beklersin.
Neyse ki, CrossTable() iki kategorik değişkene de uygulanabilir. Haydi keşfedelim!
Bu egzersiz
R ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
str()ile yapısına bakarak veri kümesine aşina ol.library()kullanarak gmodels paketini yükle. DataCamp sunucularında zaten kurulu.- Yalnızca bir argüman kullanarak,
loan_data$loan_statusileCrossTable()çıktısına göz at. CrossTable()fonksiyonunuxargümanıloan_data$gradeveyargümanıloan_data$loan_statusolacak şekilde çağır. Sadece satır bazında oranlar istiyoruz, bu yüzdenprop.rdeğeriniTRUEyap;prop.c,prop.tveprop.chisqdeğerlerini iseFALSEyap (buradaki varsayılanlarTRUEolduğu için sütun oranları, tablo oranları ve her hücre için ki-kare katkıları eklenirdi. Buna şu an ihtiyacımız yok).
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# View the structure of loan_data
# Load the gmodels package
# Call CrossTable() on loan_status
# Call CrossTable() on grade and loan_status