Verklaarde variantie
In deze oefening maak je scree-plots die laten zien welk deel van de variantie wordt verklaard naarmate het aantal hoofdcomponenten toeneemt. De PCA-data moet eerst worden voorbereid voor deze plots, omdat er in R geen ingebouwde functie is om ze direct vanuit het PCA-model te maken.
Vraag jezelf bij deze plots af of er een knik zit in de hoeveelheid verklaarde variantie die je helpt een natuurlijk aantal hoofdcomponenten te kiezen. Als er geen duidelijke knik is, wat vaak voorkomt bij echte gegevenssets, bedenk dan hoe je anders het aantal te behouden hoofdcomponenten kunt bepalen op basis van de scree-plot.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
De variabelen die je eerder hebt aangemaakt, wisc.data, diagnosis en wisc.pr, zijn nog beschikbaar.
- Bereken de variantie van elke hoofdcomponent door het
sdev-onderdeel vanwisc.prte kwadrateren. Sla het resultaat op in een objectpr.var. - Bereken de verklaarde variantie per hoofdcomponent door te delen door de totale verklaarde variantie van alle hoofdcomponenten. Sla dit op in een variabele
pve. - Maak een plot van de verklaarde variantie per hoofdcomponent.
- Maak met de functie
cumsum()een plot van de cumulatieve proportie verklaarde variantie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set up 1 x 2 plotting grid
par(mfrow = c(1, 2))
# Calculate variability of each component
# Variance explained by each principal component: pve
# Plot variance explained for each principal component
plot(___, xlab = "Principal Component",
ylab = "Proportion of Variance Explained",
ylim = c(0, 1), type = "b")
# Plot cumulative proportion of variance explained
plot(___, xlab = "Principal Component",
ylab = "Cumulative Proportion of Variance Explained",
ylim = c(0, 1), type = "b")