Choisir le nombre de grappes
Dans cet exercice, vous allez comparer les résultats de votre modèle de clustering hiérarchique aux diagnostics réels. En temps normal, lors d’un apprentissage non supervisé comme ici, on ne dispose pas d’une variable cible. Avec ce jeu de données, nous l’avons, ce qui permet d’évaluer les performances du modèle de clustering.
Dans un apprentissage supervisé — c’est-à-dire lorsque vous essayez de prédire une variable cible d’intérêt et que celle-ci est présente dans les données d’origine — utiliser le clustering pour créer de nouvelles variables peut améliorer ou non les performances du modèle final. Cet exercice vous aidera à déterminer si, dans ce cas, le clustering hiérarchique fournit une nouvelle variable prometteuse.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
wisc.data, diagnosis, wisc.pr, pve et wisc.hclust sont disponibles dans votre espace de travail.
- Utilisez
cutree()pour couper l’arbre de sorte qu’il ait 4 grappes. Affectez la sortie à la variablewisc.hclust.clusters. - Utilisez la fonction
table()pour comparer l’appartenance aux grappes aux diagnostics réels.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses