Veri kümesini bölme
Eğitim ve test setlerini oluşturmak için önce set.seed() ile bir tohum (seed) ayarlamalısın. Seed, rastgele sayı üretimine sabit bir başlangıç noktası verir; böylece kodun her çalıştırıldığında aynı sonuç üretilir. Bunun örnekleme sürecindeki avantajı, senin ya da başkasının aynı seedi kullanarak tam olarak aynı eğitim ve test setlerini yeniden oluşturabilmesidir.
sample() ile gözlemleri rastgele eğitim ve test setlerine atayabilirsin.
Bu egzersizde sample() fonksiyonunun ilk iki argümanını kullanacaksın:
- İlk argüman, değerleri örnekleyeceğimiz vektördür. Satır numaralarını indeks olarak rastgele seçeceğiz; satır numaraları vektörünü oluşturmak için
1:nrow(loan_data)kullanabilirsin. - İkinci argüman, seçilecek eleman sayısıdır. Önce eğitim setini oluşturduğumuz için
2 / 3 * nrow(loan_data)gireceğiz.
Bu egzersiz
R ile Kredi Riski Modellemesi
kursunun bir parçasıdırEgzersiz talimatları
set.seed()fonksiyonunu kullanarak 567 seed değeri ayarla.- Eğitim setinin satır indekslerini
index_trainnesnesinde sakla. Yukarıda anlatıldığı gibisample()fonksiyonunu birinci ve ikinci argümanlarla kullan. index_trainiçinde saklanan satır numaralarınıloan_dataveri kümesinden seçerek eğitim setini oluştur. Sonucutraining_setolarak kaydet.- Test seti,
index_trainiçinde olmayan satırlardan oluşur. Eğitim setini oluşturduğun kodu kopyala ama köşeli parantez içindeindex_train'in hemen önüne negatif işareti (-) koy. Sonucutest_setolarak kaydet.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Set seed of 567
# Store row numbers for training set: index_train
# Create training set: training_set
training_set <- loan_data[___, ]
# Create test set: test_set