Pengambilan sampel ulang data
Langkah pertama dalam proyek Machine Learning adalah membuat himpunan data pelatihan dan pengujian untuk pemodelan dan evaluasi. Himpunan data pengujian memberikan perkiraan tentang kinerja model Anda pada data baru dan membantu mencegah overfitting.
Anda akan bekerja dengan himpunan data telecom_df yang berisi informasi pelanggan dari sebuah perusahaan telekomunikasi. Variabel keluaran adalah canceled_service yang mencatat apakah seorang pelanggan membatalkan kontraknya dengan perusahaan. Variabel prediktor berisi informasi tentang penggunaan ponsel dan Internet pelanggan, serta jenis kontrak dan biaya bulanannya.
Tibble telecom_df telah dimuat ke sesi Anda.
Latihan ini adalah bagian dari kursus
Pemodelan dengan tidymodels di R
Petunjuk latihan
- Buat objek
rsample,telecom_split, yang memuat instruksi untuk membagi acak datatelecom_dfmenjadi himpunan data pelatihan dan pengujian.- Alokasikan 75% data ke pelatihan dan lakukan stratifikasi berdasarkan
canceled_service.
- Alokasikan 75% data ke pelatihan dan lakukan stratifikasi berdasarkan
- Teruskan objek
telecom_splitke fungsirsampleyang sesuai untuk membuat himpunan data pelatihan dan pengujian. - Periksa jumlah baris pada masing-masing himpunan data dengan meneruskannya ke fungsi
nrow().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)