CommencerCommencer gratuitement

Regrouper à partir des résultats de l’ACP

Dans ce dernier exercice, vous allez rassembler plusieurs étapes déjà utilisées et, ce faisant, vous expérimenterez une part de la créativité propre au Machine Learning non supervisé.

Rappelez-vous des exercices précédents que le modèle d’ACP nécessitait nettement moins de variables pour décrire 80 % et 95 % de la variabilité des données. En plus de normaliser les données et de limiter potentiellement le surapprentissage, l’ACP rend les variables non corrélées, ce qui peut parfois améliorer les performances d’autres techniques de modélisation.

Voyons si l’ACP améliore ou dégrade les performances du regroupement hiérarchique.

Cet exercice fait partie du cours

Apprentissage non supervisé en R

Afficher le cours

Instructions

wisc.pr, diagnosis, wisc.hclust.clusters et wisc.km sont toujours disponibles dans votre espace de travail.

  • En utilisant le nombre minimal de composantes principales nécessaire pour décrire au moins 90 % de la variabilité des données, créez un modèle de regroupement hiérarchique avec liaison complète (complete linkage). Attribuez le résultat à wisc.pr.hclust.
  • Découpez ce modèle de regroupement hiérarchique en 4 groupes et affectez le résultat à wisc.pr.hclust.clusters.
  • À l’aide de table(), comparez les résultats de votre nouveau modèle de regroupement hiérarchique aux diagnostics réels. Dans quelle mesure ce nouveau modèle à quatre groupes sépare-t-il les deux diagnostics ?
  • Dans quelle mesure les modèles k-means et de regroupement hiérarchique créés dans les exercices précédents parviennent-ils à séparer les diagnostics ? Utilisez de nouveau la fonction table() pour comparer la sortie de chaque modèle avec le vecteur contenant les diagnostics réels.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)

# Cut model into 4 clusters: wisc.pr.hclust.clusters


# Compare to actual diagnoses


# Compare to k-means and hierarchical
Modifier et exécuter le code