Membuat himpunan data pelatihan dan pengujian
Membagi himpunan data menjadi himpunan pelatihan dan pengujian adalah langkah penting dalam membangun dan menguji model klasifikasi. Himpunan pelatihan digunakan untuk membangun model, sedangkan himpunan pengujian untuk mengevaluasi akurasi prediktifnya.
Dalam latihan ini, Anda akan membagi himpunan data yang Anda buat pada bab sebelumnya menjadi himpunan pelatihan dan pengujian. Himpunan data telah dimuat dalam data frame df dan seed sudah ditetapkan untuk memastikan reproduktabilitas. Ingat bahwa pada video sebelumnya, kita menetapkan batas atas untuk panjang himpunan pelatihan dengan beberapa fungsi yang praktis — sekarang giliran Anda untuk mengimplementasikannya!
Latihan ini adalah bagian dari kursus
Support Vector Machines di R
Petunjuk latihan
- Tentukan batas atas untuk jumlah baris yang akan masuk ke himpunan pelatihan dan simpan dalam
sample_size. - Buat vektor
trainyang menyimpan penugasan acak untuk himpunan pelatihan menurut proporsi 80/20. - Masukkan baris-baris dalam vektor
trainke data frametrainsetdan sisanya ke data frametestset.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]