Mengelompokkan variabel berdasarkan proporsi
Sering kali, Anda tidak memiliki level tertentu yang ingin diubah menjadi "lainnya" atau digabungkan. Alih-alih, Anda ingin mempertahankan level yang paling umum dan memasukkan sisanya ke dalam "other." Terutama ketika levelnya banyak dan sebagian besar jarang muncul, ini membantu untuk menampilkan data Anda. Mari kita coba menggunakan pertanyaan dari survei Kaggle tentang metode machine learning apa yang ingin dicoba orang tahun depan. multiple_choice_responses sudah dimuat untuk Anda. Saat menghitung, ingat bahwa sort = TRUE secara bawaan berarti urutan menurun.
Latihan ini adalah bagian dari kursus
Data Kategorikal di Tidyverse
Petunjuk latihan
- Hapus responden yang tidak memilih metode.
- Buat variabel baru,
ml_method, dariMLMethodNextYearSelectyang mempertahankan judul yang dimiliki setidaknya 5% responden dan mengelompokkan sisanya sebagai "Other" (nilai bawaan). - Terakhir, hitung variabel baru Anda, diurutkan menurun.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
multiple_choice_responses %>%
# Remove NAs of MLMethodNextYearSelect
filter(___) %>%
# Create ml_method, which lumps all those with less than 5% of people into "Other"
mutate(ml_method = ___(MLMethodNextYearSelect, ___)) %>%
# Count the frequency of your new variable, sorted in descending order
___(___, ___)