1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Redukce dimenzionality v R

Connected

Cvičení

Vytvoř recept pro filtrování nízkého rozptylu

Balíček tidymodels nabízí elegantnější způsob, jak odfiltrovat příznaky s nulovým nebo téměř nulovým rozptylem – pomocí funkcí step_zv() a step_nzv(). Tyto kroky receptu identifikují příznaky s nízkým rozptylem na základě počtu unikátních hodnot a poměru frekvence nejčastěji se vyskytujících hodnot v každém příznaku. Tento přístup je robustnější než jednoduché prahování rozptylu, které jsme použili dříve.

Navíc využiješ krok step_scale(), který normalizuje rozptyl příznaků. Normalizace dat je vždy dobrý nápad – zajistí, že rozptyly napříč příznaky budou vzájemně srovnatelné.

Dataset house_sales_df máš k dispozici. Cílová proměnná je price. Balíčky tidyverse a tidymodels jsou již načteny.

Pokyny

100 XP
  • Definuj recept pro filtrování nízkého rozptylu a připrav ho pomocí house_sales_df.
  • Aplikuj recept na house_sales_df a výsledná filtrovaná data ulož do filtered_house_sales_df.
  • Zobraz příznaky, které recept odfiltroval v kroku step_nzv().