Pembagian data train-test
Dalam alur kerja Machine Learning yang disiplin, sangat penting untuk menahan sebagian data Anda (data pengujian) dari proses pengambilan keputusan apa pun. Hal ini memungkinkan Anda menilai kinerja model secara independen ketika model telah difinalisasi. Sisa data, yaitu data pelatihan, digunakan untuk membangun dan memilih model terbaik.
Dalam latihan ini, Anda akan menggunakan paket rsample untuk membagi data guna melakukan pemisahan awal train-test pada data gapminder Anda.
Catatan: Karena ini adalah pembagian acak atas data, sebaiknya Anda menetapkan seed sebelum melakukan pemisahan.
Latihan ini adalah bagian dari kursus
Machine Learning di Tidyverse
Petunjuk latihan
- Bagi data Anda menjadi 75% pelatihan dan 25% pengujian menggunakan fungsi
initial_split()dan simpan sebagaigap_split. - Ekstrak data frame pelatihan dari
gap_splitmenggunakan fungsitraining(). - Ekstrak data frame pengujian dari
gap_splitmenggunakan fungsitesting(). - Pastikan dimensi data frame baru sesuai dengan yang Anda harapkan dengan menggunakan fungsi
dim()padatraining_datadantesting_data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
set.seed(42)
# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)
# Extract the training data frame
training_data <- ___
# Extract the testing data frame
testing_data <- ___
# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)