Aspects pratiques : mise à l’échelle
Rappelez-vous, d’après la vidéo, que le clustering de données réelles peut nécessiter une mise à l’échelle des variables si leurs distributions diffèrent. Jusqu’ici dans ce chapitre, vous avez travaillé avec des données synthétiques qui n’avaient pas besoin de mise à l’échelle.
Dans cet exercice, vous revenez à des données « réelles », le jeu de données pokemon introduit au premier chapitre. Vous allez observer la distribution (moyenne et écart type) de chaque variable, mettre les données à l’échelle en conséquence, puis produire un modèle de clustering hiérarchique en utilisant la méthode de chaînage complet (complete linkage).
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
Les données sont stockées dans l’objet pokemon de votre espace de travail.
- Affichez la moyenne de chaque variable de
pokemonà l’aide de la fonctioncolMeans(). - Affichez l’écart type de chaque variable en utilisant les fonctions
apply()etsd(). Comme les variables correspondent aux colonnes de votre matrice, veillez à spécifier 2 comme argumentMARGINdeapply(). - Mettez les données
pokemonà l’échelle avec la fonctionscale()et stockez le résultat danspokemon.scaled. - Créez un modèle de clustering hiérarchique à partir des données
pokemon.scaleden utilisant la méthode de chaînage complet. Spécifiez manuellement l’argumentmethodet stockez le résultat danshclust.pokemon.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# View column means
# View column standard deviations
# Scale the data
# Create hierarchical clustering model: hclust.pokemon