Hitung kemungkinan kombinasi
Data frame healthcare_cat_df berisi variabel kategorikal tentang karyawan di sebuah perusahaan layanan kesehatan dan apakah mereka keluar dari perusahaan atau tidak. Anda akan menggunakan himpunan data ini untuk menentukan jumlah kombinasi nilai fitur yang ada dalam himpunan data.
Saat melatih model machine learning, Anda menginginkan data yang memuat banyak observasi untuk setiap kombinasi. Jadi, jumlah kombinasi membantu membuat tolok ukur untuk jumlah minimal observasi yang perlu Anda kumpulkan agar membantu menghindari bias dalam model Anda.
Paket tidyverse telah dimuat untuk Anda.
Latihan ini merupakan bagian dari kursus
Reduksi Dimensi di R
Instruksi latihan
- Hitung jumlah minimal observasi yang diperlukan untuk merepresentasikan semua kombinasi nilai fitur dalam
healthcare_cat_df.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Calculate the minimum number of value combinations
healthcare_cat_df %>%
___(___(___(), ~ ___(unique(.)))) %>%
___()