Seleccionar el número de clústeres
En este ejercicio, compararás los resultados de tu modelo de clustering jerárquico con los diagnósticos reales. Normalmente, cuando realizas aprendizaje no supervisado como este, no se dispone de una variable objetivo. Sin embargo, en este conjunto de datos sí la tenemos, así que puede usarse para comprobar el rendimiento del modelo de clustering.
Cuando haces aprendizaje supervisado —es decir, cuando intentas predecir una variable objetivo de interés y esa variable está disponible en los datos originales— usar clustering para crear nuevas características puede o no mejorar el rendimiento del modelo final. Este ejercicio te ayudará a determinar si, en este caso, el clustering jerárquico aporta una nueva característica prometedora.
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
wisc.data, diagnosis, wisc.pr, pve y wisc.hclust están disponibles en tu espacio de trabajo.
- Usa
cutree()para cortar el árbol de forma que tenga 4 clústeres. Asigna la salida a la variablewisc.hclust.clusters. - Usa la función
table()para comparar la pertenencia a clústeres con los diagnósticos reales.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses