MulaiMulai sekarang secara gratis

Pengambilan sampel ulang data

Langkah pertama dalam proyek Machine Learning adalah membuat himpunan data pelatihan dan pengujian untuk pemodelan dan evaluasi. Himpunan data pengujian memberikan perkiraan tentang kinerja model Anda pada data baru dan membantu mencegah overfitting.

Anda akan bekerja dengan himpunan data telecom_df yang berisi informasi pelanggan dari sebuah perusahaan telekomunikasi. Variabel keluaran adalah canceled_service yang mencatat apakah seorang pelanggan membatalkan kontraknya dengan perusahaan. Variabel prediktor berisi informasi tentang penggunaan ponsel dan Internet pelanggan, serta jenis kontrak dan biaya bulanannya.

Tibble telecom_df telah dimuat ke sesi Anda.

Latihan ini adalah bagian dari kursus

Pemodelan dengan tidymodels di R

Lihat Kursus

Petunjuk latihan

  • Buat objek rsample, telecom_split, yang memuat instruksi untuk membagi acak data telecom_df menjadi himpunan data pelatihan dan pengujian.
    • Alokasikan 75% data ke pelatihan dan lakukan stratifikasi berdasarkan canceled_service.
  • Teruskan objek telecom_split ke fungsi rsample yang sesuai untuk membuat himpunan data pelatihan dan pengujian.
  • Periksa jumlah baris pada masing-masing himpunan data dengan meneruskannya ke fungsi nrow().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)
Edit dan Jalankan Kode