Crie uma receita de baixa variância
Os pacotes tidymodels oferecem uma forma melhor de filtrar features com variância nula e quase nula usando as funções step_zv() e step_nzv(), respectivamente. Essas etapas da receita identificam features de baixa variância examinando o número de valores únicos e a razão entre a frequência dos valores mais comuns em cada feature. Essa abordagem é mais robusta do que o simples corte por variância que usamos anteriormente.
Além disso, você vai usar a etapa step_scale() para normalizar a variância das features. Lembre-se: é sempre uma boa prática normalizar os dados para tornar as variâncias entre as features comparáveis.
O house_sales_df está disponível para você usar. A variável alvo é price. Os pacotes tidyverse e tidymodels também já foram carregados para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Defina uma receita para um filtro de baixa variância e prepare-a usando
house_sales_df. - Aplique a receita ao
house_sales_dfe armazene os dados filtrados emfiltered_house_sales_df. - Exiba as features que a receita filtrou na etapa
step_nzv().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Prepare recipe
low_variance_recipe <- recipe(___ ~ ___, ___ = ___) %>%
step_zv(___) %>%
___(___) %>%
___(___) %>%
prep()
# Apply recipe
filtered_house_sales_df <- ___(___, new_data = ___)
# View list of features removed by the near-zero variance step
tidy(___, number = ___)