Data frame cross-validation
Sekarang setelah Anda menyisihkan sebagian data sebagai testing data, Anda dapat menggunakan sisa data untuk menemukan model dengan kinerja terbaik.
Pada latihan ini, Anda akan membagi data pelatihan menjadi serangkaian 5 himpunan train-validate menggunakan fungsi vfold_cv() dari paket rsample.
Latihan ini adalah bagian dari kursus
Machine Learning di Tidyverse
Petunjuk latihan
- Bangun sebuah data frame untuk 5-fold cross validation dari
training_datamenggunakanvfold_cv()dan tetapkan kecv_split. - Siapkan
cv_datadengan menambahkan dua kolom baru kecv_split:train: berisi data frame train dengan memetakantraining()ke seluruh kolomsplits.validate: berisi data frame validate dengan memetakantesting()ke seluruh kolomsplits.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
set.seed(42)
# Prepare the data frame containing the cross validation partitions
cv_split <- vfold_cv(___, v = ___)
cv_data <- cv_split %>%
mutate(
# Extract the train data frame for each split
train = map(___, ~___(.x)),
# Extract the validate data frame for each split
validate = map(___, ~___(.x))
)
# Use head() to preview cv_data
head(cv_data)