Membagi himpunan data

Untuk membuat training set dan test set, Anda harus terlebih dahulu menetapkan seed menggunakan set.seed(). Seed memungkinkan Anda membuat titik awal untuk bilangan acak, sehingga setiap kali kode dijalankan, hasil yang sama akan dihasilkan. Keuntungannya adalah Anda atau siapa pun dapat mereplikasi training set dan test set yang persis sama dengan menggunakan seed yang sama.

Dengan sample(), Anda dapat menetapkan observasi secara acak ke training set dan test set.

Untuk latihan ini Anda akan menggunakan dua argumen pertama dalam fungsi sample():

Argumen pertama adalah vektor tempat kita akan mengambil sampel nilai. Kita akan memilih nomor baris secara acak sebagai indeks; Anda dapat menggunakan 1:nrow(loan_data) untuk membuat vektor nomor baris.
Argumen kedua adalah jumlah item yang akan dipilih. Kita akan memasukkan 2 / 3 * nrow(loan_data), karena kita membentuk training set terlebih dahulu.

Latihan ini merupakan bagian dari kursus

Pemodelan Risiko Kredit di R

Lihat Kursus

Instruksi latihan

Tetapkan seed bernilai 567 menggunakan fungsi set.seed().
Simpan indeks baris untuk training set dalam objek index_train. Gunakan fungsi sample() dengan argumen pertama dan kedua seperti dijelaskan di atas.
Buat training set dengan memilih nomor baris yang disimpan di index_train dari himpunan data loan_data. Simpan hasilnya ke training_set.
Test set berisi baris yang tidak ada di index_train. Salin kode yang Anda gunakan untuk membuat training set, tetapi gunakan tanda negatif (-) tepat sebelum index_train di dalam tanda kurung siku. Simpan hasilnya ke test_set.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Set seed of 567


# Store row numbers for training set: index_train


# Create training set: training_set
training_set <- loan_data[___, ]

# Create test set: test_set

Edit dan Jalankan Kode