Efectos de la escala
Has aprendido que, cuando una variable está en una escala mayor que otras variables de tus datos, puede influir de forma desproporcionada en la distancia resultante calculada entre tus observaciones. Vamos a verlo con un ejemplo usando una muestra del conjunto de datos trees.
Vas a aprovechar la función scale(), que por defecto centra y escala las columnas de nuestras variables.
Nuestras variables son las siguientes:
- Girth: diámetro del árbol en pulgadas
- Height: altura del árbol en pulgadas
Este ejercicio forma parte del curso
Análisis de clústeres en R
Instrucciones del ejercicio
- Calcula la matriz de distancias para el data frame
three_treesy guárdala comodist_trees. - Crea una nueva variable
scaled_three_treesdonde los datos dethree_treesestén centrados y escalados. - Calcula e imprime la matriz de distancias para
scaled_three_treesy guárdala comodist_scaled_trees. - Muestra las matrices
dist_treesydist_scaled_treesy observa el cambio en qué observaciones tienen la menor distancia entre ambas matrices (pista: han cambiado).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Calculate distance for three_trees
dist_trees <- ___
# Scale three trees & calculate the distance
scaled_three_trees <- ___
dist_scaled_trees <- ___
# Output the results of both Matrices
print('Without Scaling')
___
print('With Scaling')
___