ComenzarEmpieza gratis

Efectos de la escala

Has aprendido que, cuando una variable está en una escala mayor que otras variables de tus datos, puede influir de forma desproporcionada en la distancia resultante calculada entre tus observaciones. Vamos a verlo con un ejemplo usando una muestra del conjunto de datos trees.

Vas a aprovechar la función scale(), que por defecto centra y escala las columnas de nuestras variables.

Nuestras variables son las siguientes:

  • Girth: diámetro del árbol en pulgadas
  • Height: altura del árbol en pulgadas

Este ejercicio forma parte del curso

Análisis de clústeres en R

Ver curso

Instrucciones del ejercicio

  • Calcula la matriz de distancias para el data frame three_trees y guárdala como dist_trees.
  • Crea una nueva variable scaled_three_trees donde los datos de three_trees estén centrados y escalados.
  • Calcula e imprime la matriz de distancias para scaled_three_trees y guárdala como dist_scaled_trees.
  • Muestra las matrices dist_trees y dist_scaled_trees y observa el cambio en qué observaciones tienen la menor distancia entre ambas matrices (pista: han cambiado).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Calculate distance for three_trees 
dist_trees <- ___

# Scale three trees & calculate the distance  
scaled_three_trees <- ___
dist_scaled_trees <- ___

# Output the results of both Matrices
print('Without Scaling')
___

print('With Scaling')
___
Editar y ejecutar código