Veri kümesini bölme

Eğitim ve test setlerini oluşturmak için önce set.seed() ile bir tohum (seed) ayarlamalısın. Seed, rastgele sayı üretimine sabit bir başlangıç noktası verir; böylece kodun her çalıştırıldığında aynı sonuç üretilir. Bunun örnekleme sürecindeki avantajı, senin ya da başkasının aynı seedi kullanarak tam olarak aynı eğitim ve test setlerini yeniden oluşturabilmesidir.

sample() ile gözlemleri rastgele eğitim ve test setlerine atayabilirsin.

Bu egzersizde sample() fonksiyonunun ilk iki argümanını kullanacaksın:

İlk argüman, değerleri örnekleyeceğimiz vektördür. Satır numaralarını indeks olarak rastgele seçeceğiz; satır numaraları vektörünü oluşturmak için 1:nrow(loan_data) kullanabilirsin.
İkinci argüman, seçilecek eleman sayısıdır. Önce eğitim setini oluşturduğumuz için 2 / 3 * nrow(loan_data) gireceğiz.

Bu egzersiz, kursun bir parçasıdır

R ile Kredi Riski Modellemesi

Kursa Göz Atın

Egzersiz talimatları

set.seed() fonksiyonunu kullanarak 567 seed değeri ayarla.
Eğitim setinin satır indekslerini index_train nesnesinde sakla. Yukarıda anlatıldığı gibi sample() fonksiyonunu birinci ve ikinci argümanlarla kullan.
index_train içinde saklanan satır numaralarını loan_data veri kümesinden seçerek eğitim setini oluştur. Sonucu training_set olarak kaydet.
Test seti, index_train içinde olmayan satırlardan oluşur. Eğitim setini oluşturduğun kodu kopyala ama köşeli parantez içinde index_train'in hemen önüne negatif işareti (-) koy. Sonucu test_set olarak kaydet.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Set seed of 567


# Store row numbers for training set: index_train


# Create training set: training_set
training_set <- loan_data[___, ]

# Create test set: test_set

Kodu Düzenle ve Çalıştır