Effets de l’échelle

Vous avez appris que lorsqu’une variable est sur une échelle plus grande que les autres variables de vos données, elle peut influencer de manière disproportionnée la distance calculée entre vos observations. Voyons cela concrètement avec un échantillon du jeu de données trees.

Vous allez utiliser la fonction scale() qui, par défaut, centre et met à l’échelle les colonnes de nos variables.

Nos variables sont les suivantes :

Girth - diamètre de l’arbre, en pouces
Height - hauteur de l’arbre, en pouces

Cet exercice fait partie du cours

Analyse de clusters avec R

Afficher le cours

Instructions

Calculez la matrice des distances pour le data frame three_trees et stockez-la dans dist_trees.
Créez une nouvelle variable scaled_three_trees où les données de three_trees sont centrées et mises à l’échelle.
Calculez et affichez la matrice des distances pour scaled_three_trees et stockez-la dans dist_scaled_trees.
Affichez les matrices dist_trees et dist_scaled_trees et observez le changement des observations ayant la plus petite distance entre les deux matrices (indice : elles ont changé).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate distance for three_trees 
dist_trees <- ___

# Scale three trees & calculate the distance  
scaled_three_trees <- ___
dist_scaled_trees <- ___

# Output the results of both Matrices
print('Without Scaling')
___

print('With Scaling')
___

Modifier et exécuter le code