Clustering sobre resultados de PCA
En este ejercicio final, vas a reunir varios pasos que usaste antes y, al hacerlo, vas a experimentar algo de la creatividad típica del aprendizaje no supervisado.
Recuerda de ejercicios anteriores que el modelo de PCA necesitó muchas menos variables para describir el 80% y el 95% de la variabilidad de los datos. Además de normalizar los datos y ayudar a evitar el overfitting, PCA también desacorrelaciona las variables, lo que a veces mejora el rendimiento de otras técnicas de modelado.
Vamos a ver si PCA mejora o empeora el rendimiento del clustering jerárquico.
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
wisc.pr, diagnosis, wisc.hclust.clusters y wisc.km siguen disponibles en tu espacio de trabajo.
- Usando el número mínimo de componentes principales necesario para describir al menos el 90% de la variabilidad de los datos, crea un modelo de clustering jerárquico con enlace completo (complete linkage). Asigna los resultados a
wisc.pr.hclust. - Corta este modelo de clustering jerárquico en 4 clústeres y asigna los resultados a
wisc.pr.hclust.clusters. - Con
table(), compara los resultados de tu nuevo modelo de clustering jerárquico con los diagnósticos reales. ¿Qué tal separa el nuevo modelo con cuatro clústeres los dos diagnósticos? - ¿Qué tal separan los diagnósticos los modelos de k-means y clustering jerárquico que creaste en ejercicios anteriores? De nuevo, usa la función
table()para comparar la salida de cada modelo con el vector que contiene los diagnósticos reales.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)
# Cut model into 4 clusters: wisc.pr.hclust.clusters
# Compare to actual diagnoses
# Compare to k-means and hierarchical