Clustering con k-means y comparación de resultados
Como ya sabes, hay dos tipos principales de clustering: jerárquico y k-means.
En este ejercicio, crearás un modelo de clustering k-means con los datos de cáncer de mama de Wisconsin y compararás los resultados con los diagnósticos reales y con los de tu modelo de clustering jerárquico. Dedica un momento a ver cómo rinde cada modelo a la hora de separar los dos diagnósticos y cómo se comparan entre sí ambos enfoques de clustering.
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
wisc.data, diagnosis y wisc.hclust.clusters siguen disponibles.
- Crea un modelo k-means sobre
wisc.data, guardando el resultado enwisc.km. Asegúrate de crear 2 clústeres, correspondientes al número real de diagnósticos. Además, recuerda escalar los datos y repetir el algoritmo 20 veces para encontrar un modelo con buen rendimiento. - Usa la función
table()para comparar la pertenencia a clúster del modelo k-means con los diagnósticos reales contenidos en el vectordiagnosis. ¿Qué tal separa k-means los dos diagnósticos? - Usa la función
table()para comparar la pertenencia a clúster del modelo k-means con la del modelo de clustering jerárquico. Recuerda que la pertenencia a clúster del modelo jerárquico está enwisc.hclust.clusters.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a k-means model on wisc.data: wisc.km
# Compare k-means to actual diagnoses
# Compare k-means to hierarchical clustering