Buat recipe varians rendah
Paket tidymodels menyediakan cara yang lebih baik untuk memfilter fitur dengan varians nol dan hampir nol melalui fungsi step_zv() dan step_nzv(). Langkah-langkah recipe ini mengidentifikasi fitur ber-varians rendah dengan memeriksa jumlah nilai unik serta rasio frekuensi nilai yang paling umum pada setiap fitur. Pendekatan ini lebih andal daripada batas varians sederhana yang kita gunakan sebelumnya.
Selain itu, Anda akan menggunakan langkah recipe step_scale() untuk menormalkan varians fitur. Ingat, menormalkan data adalah praktik yang baik agar varians antarfitur dapat dibandingkan.
house_sales_df tersedia untuk Anda gunakan. Variabel targetnya adalah price. Paket tidyverse dan tidymodels juga telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Definisikan sebuah recipe untuk penyaring varians rendah dan siapkan menggunakan
house_sales_df. - Terapkan recipe pada
house_sales_dfdan simpan data yang telah difilter kefiltered_house_sales_df. - Tampilkan fitur yang difilter oleh recipe pada langkah
step_nzv().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Prepare recipe
low_variance_recipe <- recipe(___ ~ ___, ___ = ___) %>%
step_zv(___) %>%
___(___) %>%
___(___) %>%
prep()
# Apply recipe
filtered_house_sales_df <- ___(___, new_data = ___)
# View list of features removed by the near-zero variance step
tidy(___, number = ___)