MulaiMulai sekarang secara gratis

Membuat himpunan data pelatihan dan pengujian

Membagi himpunan data menjadi himpunan pelatihan dan pengujian adalah langkah penting dalam membangun dan menguji model klasifikasi. Himpunan pelatihan digunakan untuk membangun model, sedangkan himpunan pengujian untuk mengevaluasi akurasi prediktifnya.

Dalam latihan ini, Anda akan membagi himpunan data yang Anda buat pada bab sebelumnya menjadi himpunan pelatihan dan pengujian. Himpunan data telah dimuat dalam data frame df dan seed sudah ditetapkan untuk memastikan reproduktabilitas. Ingat bahwa pada video sebelumnya, kita menetapkan batas atas untuk panjang himpunan pelatihan dengan beberapa fungsi yang praktis — sekarang giliran Anda untuk mengimplementasikannya!

Latihan ini adalah bagian dari kursus

Support Vector Machines di R

Lihat Kursus

Petunjuk latihan

  • Tentukan batas atas untuk jumlah baris yang akan masuk ke himpunan pelatihan dan simpan dalam sample_size.
  • Buat vektor train yang menyimpan penugasan acak untuk himpunan pelatihan menurut proporsi 80/20.
  • Masukkan baris-baris dalam vektor train ke data frame trainset dan sisanya ke data frame testset.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Set the upper bound for the length of the training set
sample_size <- ___(___ * nrow(df))

# Assign rows to training set randomly
train <- ___(seq_len(nrow(df)), size = ___)

# Yield training and test sets
trainset <- df[___, ]
testset <- df[-___, ]
Edit dan Jalankan Kode