Aspectos prácticos: escalado
Recuerda del vídeo que agrupar datos reales puede requerir escalar las variables si tienen distribuciones distintas. Hasta ahora en este capítulo has trabajado con datos sintéticos que no necesitaban escalado.
En este ejercicio, volverás a trabajar con datos "reales": el conjunto pokemon presentado en el primer capítulo. Observarás la distribución (media y desviación estándar) de cada variable, escalarás los datos en consecuencia y luego crearás un modelo de clustering jerárquico usando el método de enlace completo (complete linkage).
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
Los datos están guardados en el objeto pokemon de tu espacio de trabajo.
- Observa la media de cada variable en
pokemonusando la funcióncolMeans(). - Observa la desviación estándar de cada variable usando las funciones
apply()ysd(). Como las variables son las columnas de tu matriz, asegúrate de especificar 2 como argumentoMARGINenapply(). - Escala los datos de
pokemoncon la funciónscale()y guarda el resultado enpokemon.scaled. - Crea un modelo de clustering jerárquico con los datos de
pokemon.scaledusando el método de enlace completo. Especifica manualmente el argumentomethody guarda el resultado enhclust.pokemon.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# View column means
# View column standard deviations
# Scale the data
# Create hierarchical clustering model: hclust.pokemon