Regrouper à partir des résultats de l’ACP
Dans ce dernier exercice, vous allez rassembler plusieurs étapes déjà utilisées et, ce faisant, vous expérimenterez une part de la créativité propre au Machine Learning non supervisé.
Rappelez-vous des exercices précédents que le modèle d’ACP nécessitait nettement moins de variables pour décrire 80 % et 95 % de la variabilité des données. En plus de normaliser les données et de limiter potentiellement le surapprentissage, l’ACP rend les variables non corrélées, ce qui peut parfois améliorer les performances d’autres techniques de modélisation.
Voyons si l’ACP améliore ou dégrade les performances du regroupement hiérarchique.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
wisc.pr, diagnosis, wisc.hclust.clusters et wisc.km sont toujours disponibles dans votre espace de travail.
- En utilisant le nombre minimal de composantes principales nécessaire pour décrire au moins 90 % de la variabilité des données, créez un modèle de regroupement hiérarchique avec liaison complète (complete linkage). Attribuez le résultat à
wisc.pr.hclust. - Découpez ce modèle de regroupement hiérarchique en 4 groupes et affectez le résultat à
wisc.pr.hclust.clusters. - À l’aide de
table(), comparez les résultats de votre nouveau modèle de regroupement hiérarchique aux diagnostics réels. Dans quelle mesure ce nouveau modèle à quatre groupes sépare-t-il les deux diagnostics ? - Dans quelle mesure les modèles k-means et de regroupement hiérarchique créés dans les exercices précédents parviennent-ils à séparer les diagnostics ? Utilisez de nouveau la fonction
table()pour comparer la sortie de chaque modèle avec le vecteur contenant les diagnostics réels.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)
# Cut model into 4 clusters: wisc.pr.hclust.clusters
# Compare to actual diagnoses
# Compare to k-means and hierarchical