Regroupement k-means et comparaison des résultats
Vous savez désormais qu’il existe deux grands types de regroupement : hiérarchique et k-means.
Dans cet exercice, vous allez créer un modèle de regroupement k-means sur les données sur le cancer du sein du Wisconsin et comparer les résultats aux diagnostics réels ainsi qu’aux résultats de votre modèle de regroupement hiérarchique. Prenez le temps d’examiner la performance de chaque modèle pour séparer les deux diagnostics et de voir comment les modèles se comparent entre eux.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
wisc.data, diagnosis et wisc.hclust.clusters sont toujours disponibles.
- Créez un modèle k-means sur
wisc.dataet stockez le résultat danswisc.km. Veillez à créer 2 clusters, correspondant au nombre réel de diagnostics. N’oubliez pas également de mettre les données à l’échelle et de répéter l’algorithme 20 fois pour trouver un modèle performant. - Utilisez la fonction
table()pour comparer l’appartenance aux clusters du modèle k-means aux diagnostics réels contenus dans le vecteurdiagnosis. Dans quelle mesure k-means parvient-il à séparer les deux diagnostics ? - Utilisez la fonction
table()pour comparer l’appartenance aux clusters du modèle k-means à celle du modèle hiérarchique. Rappelez-vous que l’appartenance aux clusters du modèle hiérarchique est stockée danswisc.hclust.clusters.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a k-means model on wisc.data: wisc.km
# Compare k-means to actual diagnoses
# Compare k-means to hierarchical clustering