Praktische aandachtspunten: schalen
Je zag in de video dat het schalen van je data vóór het doen van PCA de resultaten van het PCA-model verandert. Hier voer je PCA uit mét en zonder schalen en visualiseer je de resultaten met biplots.
Soms is schalen zinvol als de varianties van de variabelen sterk verschillen. Dat is vaak zo wanneer variabelen in verschillende eenheden zijn gemeten, bijvoorbeeld graden Fahrenheit (temperatuur) en mijlen (afstand). De keuze om te schalen is een belangrijke stap bij het uitvoeren van een principalecomponentenanalyse.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
Dezelfde Pokemon-gegevensset is beschikbaar in je werkruimte als pokemon, maar er is één nieuwe variabele toegevoegd: Total.
- Bovenaan de editor staat code om het gemiddelde en de standaarddeviatie van elke variabele in het model te berekenen. Voer deze code uit om te zien hoe de schaal van de variabelen in de oorspronkelijke data verschilt.
- Maak een PCA-model van
pokemonmet schalen en wijs het resultaat toe aanpr.with.scaling. - Maak een PCA-model van
pokemonzonder schalen en wijs het resultaat toe aanpr.without.scaling. - Gebruik
biplot()om beide modellen (één voor één) te plotten en vergelijk hun uitvoer.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Mean of each variable
colMeans(pokemon)
# Standard deviation of each variable
apply(pokemon, 2, sd)
# PCA model with scaling: pr.with.scaling
# PCA model without scaling: pr.without.scaling
# Create biplots of both for comparison