Interpréter les résultats de l’ACP
Vous allez maintenant utiliser quelques visualisations pour mieux comprendre votre modèle d’ACP. L’une d’elles, le biplot, vous a été présentée dans un chapitre précédent.
Vous rencontrerez des difficultés courantes liées à l’utilisation des biplots sur des données réelles comportant un nombre non négligeable d’observations et de variables, puis vous examinerez des visualisations alternatives. Nous vous encourageons à expérimenter d’autres visualisations avant de passer à l’exercice suivant.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
Les variables que vous avez créées précédemment, wisc.data, diagnosis et wisc.pr, sont toujours disponibles.
- Créez un biplot des données
wisc.pr. Qu’est-ce qui vous frappe dans ce graphique ? Est-il facile ou difficile à interpréter ? Pourquoi ? - Exécutez le code pour tracer en dispersion chaque observation selon les composantes principales 1 et 2, en colorant les points par le diagnostic.
- Répétez la même chose pour les composantes principales 1 et 3. Qu’observez-vous sur ces graphiques ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a biplot of wisc.pr
# Scatter plot observations by components 1 and 2
plot(wisc.pr$___[, c(1, 2)], col = (diagnosis + 1),
xlab = "PC1", ylab = "PC2")
# Repeat for components 1 and 3
plot(___, col = (diagnosis + 1),
xlab = "PC1", ylab = "PC3")
# Do additional data exploration of your choosing below (optional)