MulaiMulai sekarang secara gratis

Membuat himpunan data uji acak

Sebelum membangun model pemberian pinjaman yang lebih canggih, penting untuk menyisihkan sebagian data pinjaman untuk mensimulasikan seberapa baik model tersebut memprediksi hasil pemohon pinjaman di masa depan.

Seperti terlihat pada gambar berikut, Anda dapat menggunakan 75% observasi untuk pelatihan dan 25% untuk pengujian model.

Fungsi sample() dapat digunakan untuk menghasilkan sampel acak baris yang akan dimasukkan ke dalam himpunan pelatihan. Cukup berikan jumlah total observasi dan jumlah yang dibutuhkan untuk pelatihan.

Gunakan vektor ID baris yang dihasilkan untuk melakukan subset pada loans menjadi himpunan data pelatihan dan pengujian. Himpunan data loans tersedia untuk Anda gunakan.

Latihan ini adalah bagian dari kursus

Supervised Learning di R: Klasifikasi

Lihat Kursus

Petunjuk latihan

  • Terapkan fungsi nrow() untuk menentukan berapa banyak observasi dalam himpunan data loans, dan jumlah yang diperlukan untuk sampel 75%.
  • Gunakan fungsi sample() untuk membuat vektor integer ID baris untuk sampel 75%. Argumen pertama sample() harus berupa jumlah baris dalam himpunan data, dan argumen kedua adalah jumlah baris yang Anda perlukan dalam himpunan pelatihan.
  • Lakukan subset pada data loans menggunakan ID baris untuk membuat himpunan data pelatihan. Simpan sebagai loans_train.
  • Lakukan subset pada loans lagi, tetapi kali ini pilih semua baris yang tidak ada dalam sample_rows. Simpan sebagai loans_test

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Determine the number of rows for training


# Create a random sample of row IDs
sample_rows <- sample(___, ___)

# Create the training dataset
loans_train <- loans[___]

# Create the test dataset
loans_test <- loans[___]
Edit dan Jalankan Kode