Effets de l’échelle
Vous avez appris que lorsqu’une variable est sur une échelle plus grande que les autres variables de vos données, elle peut influencer de manière disproportionnée la distance calculée entre vos observations. Voyons cela concrètement avec un échantillon du jeu de données trees.
Vous allez utiliser la fonction scale() qui, par défaut, centre et met à l’échelle les colonnes de nos variables.
Nos variables sont les suivantes :
- Girth - diamètre de l’arbre, en pouces
- Height - hauteur de l’arbre, en pouces
Cet exercice fait partie du cours
Analyse de clusters avec R
Instructions
- Calculez la matrice des distances pour le data frame
three_treeset stockez-la dansdist_trees. - Créez une nouvelle variable
scaled_three_treesoù les données dethree_treessont centrées et mises à l’échelle. - Calculez et affichez la matrice des distances pour
scaled_three_treeset stockez-la dansdist_scaled_trees. - Affichez les matrices
dist_treesetdist_scaled_treeset observez le changement des observations ayant la plus petite distance entre les deux matrices (indice : elles ont changé).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate distance for three_trees
dist_trees <- ___
# Scale three trees & calculate the distance
scaled_three_trees <- ___
dist_scaled_trees <- ___
# Output the results of both Matrices
print('Without Scaling')
___
print('With Scaling')
___