Inzicht in principale componenten

Principal component analysis (PCA) reduceert de dimensionaliteit door niet-overlappende informatie uit features te combineren. PCA extraheert nieuwe features, zogenaamde principale componenten, die onderling onafhankelijk zijn. Een manier om PCA te begrijpen is door de belangrijkste principale componenten op de x- en y-as te plotten en de featurevectoren weer te geven. Zo kun je zien welke features bijdragen aan elke principale component. Hoewel het niet altijd eenvoudig is, is het een goede gewoonte om principale componenten een naam te geven op basis van de bijdragende features. Als methode voor feature-extractie is PCA echter vaak lastig te interpreteren.

Een subset van de kredietgegevens staat in credit_df. De doelvariabele is credit_score. De pakketten tidyverse en ggfortify zijn ook al voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Cursus bekijken

Oefeninstructies

Voer principal component analysis uit op credit_df.
Gebruik autoplot() om de eerste twee principale componenten, de featurevectoren en labels weer te geven, en codeer credit_score in kleur.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Perform PCA
pca_res <- ___(___ %>% select(-___), scale. = ___)

# Plot principal components and feature vectors
___(___, 
         data = ___, 
         colour = '___', 
         alpha = 0.3,
         loadings = ___, 
         loadings.label = ___, 
         loadings.colour = "black", 
         loadings.label.colour = "black")

Code bewerken en uitvoeren