Aspects pratiques : mise à l’échelle

Rappelez-vous, d’après la vidéo, que le clustering de données réelles peut nécessiter une mise à l’échelle des variables si leurs distributions diffèrent. Jusqu’ici dans ce chapitre, vous avez travaillé avec des données synthétiques qui n’avaient pas besoin de mise à l’échelle.

Dans cet exercice, vous revenez à des données « réelles », le jeu de données pokemon introduit au premier chapitre. Vous allez observer la distribution (moyenne et écart type) de chaque variable, mettre les données à l’échelle en conséquence, puis produire un modèle de clustering hiérarchique en utilisant la méthode de chaînage complet (complete linkage).

Cet exercice fait partie du cours

<cours>Apprentissage non supervisé en R</cours>

Voir le cours

Instructions de l’exercice

Les données sont stockées dans l’objet pokemon de votre espace de travail.

Affichez la moyenne de chaque variable de pokemon à l’aide de la fonction colMeans().
Affichez l’écart type de chaque variable en utilisant les fonctions apply() et sd(). Comme les variables correspondent aux colonnes de votre matrice, veillez à spécifier 2 comme argument MARGIN de apply().
Mettez les données pokemon à l’échelle avec la fonction scale() et stockez le résultat dans pokemon.scaled.
Créez un modèle de clustering hiérarchique à partir des données pokemon.scaled en utilisant la méthode de chaînage complet. Spécifiez manuellement l’argument method et stockez le résultat dans hclust.pokemon.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon

Modifier et exécuter le code