Clustering jerárquico de los datos del caso
El objetivo de este ejercicio es realizar clustering jerárquico de las observaciones. Recuerda del Capítulo 2 que este tipo de clustering no asume de antemano cuántos grupos naturales hay en los datos.
Como parte de la preparación para el clustering jerárquico, se calcula la distancia entre todos los pares de observaciones. Además, existen distintas formas de enlazar clusters entre sí; las más comunes son las de enlace simple (single), completo (complete) y promedio (average).
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
Las variables que creaste antes, wisc.data, diagnosis, wisc.pr y pve, están disponibles en tu espacio de trabajo.
- Estandariza los datos de
wisc.datay guarda el resultado endata.scaled. - Calcula las distancias (euclídeas) entre todos los pares de observaciones en el nuevo conjunto de datos estandarizado y guarda el resultado en
data.dist. - Crea un modelo de clustering jerárquico usando enlace completo. Especifica manualmente el argumento
methodenhclust()y guarda los resultados enwisc.hclust.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Scale the wisc.data data: data.scaled
# Calculate the (Euclidean) distances: data.dist
# Create a hierarchical clustering model: wisc.hclust