Membuat himpunan data pelatihan dan pengujian
Membagi himpunan data menjadi himpunan pelatihan dan pengujian adalah langkah penting dalam membangun dan menguji model klasifikasi. Himpunan pelatihan digunakan untuk membangun model, sedangkan himpunan pengujian untuk mengevaluasi akurasi prediktifnya.
Dalam latihan ini, Anda akan membagi himpunan data yang Anda buat pada bab sebelumnya menjadi himpunan pelatihan dan pengujian. Himpunan data telah dimuat dalam data frame df dan seed sudah ditetapkan untuk memastikan reproduktabilitas. Ingat bahwa pada video sebelumnya, kita menetapkan batas atas untuk panjang himpunan pelatihan dengan beberapa fungsi yang praktis — sekarang giliran Anda untuk mengimplementasikannya!
Latihan ini merupakan bagian dari kursus
Support Vector Machines di R
Instruksi latihan
- Tentukan batas atas untuk jumlah baris yang akan masuk ke himpunan pelatihan dan simpan dalam
sample_size. - Buat vektor
trainyang menyimpan penugasan acak untuk himpunan pelatihan menurut proporsi 80/20. - Masukkan baris-baris dalam vektor
trainke data frametrainsetdan sisanya ke data frametestset.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))
# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)
# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]