Membuat himpunan data uji acak
Sebelum membangun model pemberian pinjaman yang lebih canggih, penting untuk menyisihkan sebagian data pinjaman untuk mensimulasikan seberapa baik model tersebut memprediksi hasil pemohon pinjaman di masa depan.
Seperti terlihat pada gambar berikut, Anda dapat menggunakan 75% observasi untuk pelatihan dan 25% untuk pengujian model.

Fungsi sample() dapat digunakan untuk menghasilkan sampel acak baris yang akan dimasukkan ke dalam himpunan pelatihan. Cukup berikan jumlah total observasi dan jumlah yang dibutuhkan untuk pelatihan.
Gunakan vektor ID baris yang dihasilkan untuk melakukan subset pada loans menjadi himpunan data pelatihan dan pengujian. Himpunan data loans tersedia untuk Anda gunakan.
Latihan ini adalah bagian dari kursus
Supervised Learning di R: Klasifikasi
Petunjuk latihan
- Terapkan fungsi
nrow()untuk menentukan berapa banyak observasi dalam himpunan dataloans, dan jumlah yang diperlukan untuk sampel 75%. - Gunakan fungsi
sample()untuk membuat vektor integer ID baris untuk sampel 75%. Argumen pertamasample()harus berupa jumlah baris dalam himpunan data, dan argumen kedua adalah jumlah baris yang Anda perlukan dalam himpunan pelatihan. - Lakukan subset pada data
loansmenggunakan ID baris untuk membuat himpunan data pelatihan. Simpan sebagailoans_train. - Lakukan subset pada
loanslagi, tetapi kali ini pilih semua baris yang tidak ada dalamsample_rows. Simpan sebagailoans_test
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Determine the number of rows for training
# Create a random sample of row IDs
sample_rows <- sample(___, ___)
# Create the training dataset
loans_train <- loans[___]
# Create the test dataset
loans_test <- loans[___]