Membagi himpunan data
Untuk membuat training set dan test set, Anda harus terlebih dahulu menetapkan seed menggunakan set.seed(). Seed memungkinkan Anda membuat titik awal untuk bilangan acak, sehingga setiap kali kode dijalankan, hasil yang sama akan dihasilkan. Keuntungannya adalah Anda atau siapa pun dapat mereplikasi training set dan test set yang persis sama dengan menggunakan seed yang sama.
Dengan sample(), Anda dapat menetapkan observasi secara acak ke training set dan test set.
Untuk latihan ini Anda akan menggunakan dua argumen pertama dalam fungsi sample():
- Argumen pertama adalah vektor tempat kita akan mengambil sampel nilai. Kita akan memilih nomor baris secara acak sebagai indeks; Anda dapat menggunakan
1:nrow(loan_data)untuk membuat vektor nomor baris. - Argumen kedua adalah jumlah item yang akan dipilih. Kita akan memasukkan
2 / 3 * nrow(loan_data), karena kita membentuk training set terlebih dahulu.
Latihan ini adalah bagian dari kursus
Pemodelan Risiko Kredit di R
Petunjuk latihan
- Tetapkan seed bernilai 567 menggunakan fungsi
set.seed(). - Simpan indeks baris untuk training set dalam objek
index_train. Gunakan fungsisample()dengan argumen pertama dan kedua seperti dijelaskan di atas. - Buat training set dengan memilih nomor baris yang disimpan di
index_traindari himpunan dataloan_data. Simpan hasilnya ketraining_set. - Test set berisi baris yang tidak ada di
index_train. Salin kode yang Anda gunakan untuk membuat training set, tetapi gunakan tanda negatif (-) tepat sebelumindex_traindi dalam tanda kurung siku. Simpan hasilnya ketest_set.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set seed of 567
# Store row numbers for training set: index_train
# Create training set: training_set
training_set <- loan_data[___, ]
# Create test set: test_set