Hitung kemungkinan kombinasi
Data frame healthcare_cat_df berisi variabel kategorikal tentang karyawan di sebuah perusahaan layanan kesehatan dan apakah mereka keluar dari perusahaan atau tidak. Anda akan menggunakan himpunan data ini untuk menentukan jumlah kombinasi nilai fitur yang ada dalam himpunan data.
Saat melatih model machine learning, Anda menginginkan data yang memuat banyak observasi untuk setiap kombinasi. Jadi, jumlah kombinasi membantu membuat tolok ukur untuk jumlah minimal observasi yang perlu Anda kumpulkan agar membantu menghindari bias dalam model Anda.
Paket tidyverse telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Hitung jumlah minimal observasi yang diperlukan untuk merepresentasikan semua kombinasi nilai fitur dalam
healthcare_cat_df.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate the minimum number of value combinations
healthcare_cat_df %>%
___(___(___(), ~ ___(unique(.)))) %>%
___()