PCA-resultaten interpreteren

Nu ga je een paar visualisaties gebruiken om je PCA-model beter te begrijpen. Eén daarvan, de biplot, heb je eerder in de cursus al gezien.

Je loopt tegen enkele veelvoorkomende uitdagingen aan bij het gebruik van biplots op echte data met niet-triviale aantallen observaties en variabelen, en bekijkt daarna een paar alternatieve visualisaties. Voel je vrij om met extra visualisaties te experimenteren voordat je naar de volgende oefening gaat.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Bekijk cursus

Oefeninstructies

De variabelen die je eerder hebt gemaakt, wisc.data, diagnosis en wisc.pr, zijn nog steeds beschikbaar.

Maak een biplot van de wisc.pr-data. Wat valt je op aan deze grafiek? Is hij makkelijk of juist lastig te begrijpen? Waarom?
Voer de code uit om elke observatie te plotten op hoofdcomponenten 1 en 2, waarbij je de punten kleurt op basis van de diagnose.
Herhaal hetzelfde voor hoofdcomponenten 1 en 3. Wat valt je op aan deze grafieken?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a biplot of wisc.pr


# Scatter plot observations by components 1 and 2
plot(wisc.pr$___[, c(1, 2)], col = (diagnosis + 1), 
     xlab = "PC1", ylab = "PC2")

# Repeat for components 1 and 3
plot(___, col = (diagnosis + 1), 
     xlab = "PC1", ylab = "PC3")

# Do additional data exploration of your choosing below (optional)

Code bewerken en uitvoeren