Dimensionnalité et information des variables
Imaginez que vous travaillez pour une banque et que vous avez recueilli des informations sur différents prêts accordés à différentes personnes. Votre responsable souhaite que vous commenciez à explorer la possibilité d’utiliser ces données pour classer les clients dans différentes catégories de score de crédit. Un échantillon des données disponibles est chargé dans credit_df. Vous vous demandez combien de variables comporte le jeu de données. Vous voulez aussi identifier les variables qui ne seront pas utiles pour classer les clients dans différentes catégories de crédit.
Le package tidyverse a été chargé pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Trouvez le nombre de variables dans
credit_df. - Calculez la variance de chaque variable dans
credit_df. - Identifiez la variable avec une variance nulle et assignez-la à
column_to_remove.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the number of features
___ %>% ___()
# Compute each column variance
credit_df %>%
___(___(___(), ~ ___(., na.rm = TRUE))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "variance")
# Assign the zero-variance column
column_to_remove <- "___"