Comprendre les composantes principales

L’analyse en composantes principales (PCA) réduit la dimensionnalité en combinant l’information des variables sans recouvrement. La PCA extrait de nouvelles variables appelées composantes principales, indépendantes les unes des autres. Une façon de comprendre la PCA consiste à tracer les principales composantes sur les axes x et y et à afficher les vecteurs de variables. Cela vous permet de voir quelles variables contribuent à chaque composante principale. Bien que ce ne soit pas toujours évident, il est recommandé de nommer les composantes principales en fonction des variables qui y contribuent. Cependant, en tant que méthode d’extraction de caractéristiques, la PCA est souvent difficile à interpréter.

Un sous-ensemble des données de crédit se trouve dans credit_df. La variable cible est credit_score. Les packages tidyverse et ggfortify ont également été chargés pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

Réalisez une analyse en composantes principales sur credit_df.
Utilisez autoplot() pour afficher les deux premières composantes principales, les vecteurs et étiquettes des variables, et encodez credit_score par la couleur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Perform PCA
pca_res <- ___(___ %>% select(-___), scale. = ___)

# Plot principal components and feature vectors
___(___, 
         data = ___, 
         colour = '___', 
         alpha = 0.3,
         loadings = ___, 
         loadings.label = ___, 
         loadings.colour = "black", 
         loadings.label.colour = "black")

Modifier et exécuter le code