Dimensionalidade e informação das features
Imagine que você trabalha em um banco e coletou informações sobre diferentes empréstimos concedidos a diferentes pessoas. Sua chefia quer que você comece a explorar a possibilidade de usar esses dados para classificar clientes em diferentes categorias de score de crédito. Uma amostra dos dados disponíveis foi carregada em credit_df. Você está curioso para saber quantas features os dados têm. Você também quer identificar features que não serão úteis para classificar clientes em diferentes categorias de crédito.
O pacote tidyverse já foi carregado para você.
Este exercício faz parte do curso
Redução de Dimensionalidade em R
Instruções do exercício
- Encontre o número de features em
credit_df. - Calcule a variância de cada feature em
credit_df. - Identifique a feature com variância zero e atribua-a a
column_to_remove.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find the number of features
___ %>% ___()
# Compute each column variance
credit_df %>%
___(___(___(), ~ ___(., na.rm = TRUE))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "variance")
# Assign the zero-variance column
column_to_remove <- "___"