Aspectos prácticos: escalado

Recuerda del vídeo que agrupar datos reales puede requerir escalar las variables si tienen distribuciones distintas. Hasta ahora en este capítulo has trabajado con datos sintéticos que no necesitaban escalado.

En este ejercicio, volverás a trabajar con datos "reales": el conjunto pokemon presentado en el primer capítulo. Observarás la distribución (media y desviación estándar) de cada variable, escalarás los datos en consecuencia y luego crearás un modelo de clustering jerárquico usando el método de enlace completo (complete linkage).

Este ejercicio forma parte del curso

Unsupervised Learning in R

Ver curso

Instrucciones del ejercicio

Los datos están guardados en el objeto pokemon de tu espacio de trabajo.

Observa la media de cada variable en pokemon usando la función colMeans().
Observa la desviación estándar de cada variable usando las funciones apply() y sd(). Como las variables son las columnas de tu matriz, asegúrate de especificar 2 como argumento MARGIN en apply().
Escala los datos de pokemon con la función scale() y guarda el resultado en pokemon.scaled.
Crea un modelo de clustering jerárquico con los datos de pokemon.scaled usando el método de enlace completo. Especifica manualmente el argumento method y guarda el resultado en hclust.pokemon.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon

Editar y ejecutar código