Dimensionnalité et information des variables

Imaginez que vous travaillez pour une banque et que vous avez recueilli des informations sur différents prêts accordés à différentes personnes. Votre responsable souhaite que vous commenciez à explorer la possibilité d’utiliser ces données pour classer les clients dans différentes catégories de score de crédit. Un échantillon des données disponibles est chargé dans credit_df. Vous vous demandez combien de variables comporte le jeu de données. Vous voulez aussi identifier les variables qui ne seront pas utiles pour classer les clients dans différentes catégories de crédit.

Le package tidyverse a été chargé pour vous.

Cet exercice fait partie du cours

<cours>Réduction de dimension en R</cours>

Voir le cours

Instructions de l’exercice

Trouvez le nombre de variables dans credit_df.
Calculez la variance de chaque variable dans credit_df.
Identifiez la variable avec une variance nulle et assignez-la à column_to_remove.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Find the number of features
___ %>% ___()

# Compute each column variance
credit_df %>% 
  ___(___(___(), ~ ___(., na.rm = TRUE))) %>% 
  pivot_longer(everything(), names_to = "feature", values_to = "variance")

# Assign the zero-variance column
column_to_remove <- "___"

Modifier et exécuter le code