MulaiMulai sekarang secara gratis

Pembagian data train-test

Dalam alur kerja Machine Learning yang disiplin, sangat penting untuk menahan sebagian data Anda (data pengujian) dari proses pengambilan keputusan apa pun. Hal ini memungkinkan Anda menilai kinerja model secara independen ketika model telah difinalisasi. Sisa data, yaitu data pelatihan, digunakan untuk membangun dan memilih model terbaik.

Dalam latihan ini, Anda akan menggunakan paket rsample untuk membagi data guna melakukan pemisahan awal train-test pada data gapminder Anda.

Catatan: Karena ini adalah pembagian acak atas data, sebaiknya Anda menetapkan seed sebelum melakukan pemisahan.

Latihan ini adalah bagian dari kursus

Machine Learning di Tidyverse

Lihat Kursus

Petunjuk latihan

  • Bagi data Anda menjadi 75% pelatihan dan 25% pengujian menggunakan fungsi initial_split() dan simpan sebagai gap_split.
  • Ekstrak data frame pelatihan dari gap_split menggunakan fungsi training().
  • Ekstrak data frame pengujian dari gap_split menggunakan fungsi testing().
  • Pastikan dimensi data frame baru sesuai dengan yang Anda harapkan dengan menggunakan fungsi dim() pada training_data dan testing_data.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

set.seed(42)

# Prepare the initial split object
gap_split <- initial_split(___, prop = ___)

# Extract the training data frame
training_data <- ___

# Extract the testing data frame
testing_data <- ___

# Calculate the dimensions of both training_data and testing_data
dim(___)
dim(___)
Edit dan Jalankan Kode