Problèmes pratiques : mise à l’échelle
Vous avez vu dans la vidéo que mettre vos données à l’échelle avant de faire une PCA modifie les résultats du modèle. Ici, vous allez effectuer une PCA avec et sans mise à l’échelle, puis visualiser les résultats à l’aide de biplots.
La mise à l’échelle est parfois indiquée lorsque les variances des variables diffèrent fortement. C’est souvent le cas quand les variables n’ont pas les mêmes unités de mesure, par exemple degrés Fahrenheit (température) et miles (distance). Décider d’utiliser la mise à l’échelle est une étape importante pour réaliser une analyse en composantes principales.
Cet exercice fait partie du cours
Apprentissage non supervisé en R
Instructions
Le même jeu de données Pokemon est disponible dans votre espace de travail sous le nom pokemon, mais une nouvelle variable a été ajoutée : Total.
- Du code en haut de l’éditeur calcule la moyenne et l’écart type de chaque variable du modèle. Exécutez ce code pour voir comment l’échelle des variables diffère dans les données d’origine.
- Créez un modèle de PCA sur
pokemonavec mise à l’échelle, et affectez le résultat àpr.with.scaling. - Créez un modèle de PCA sur
pokemonsans mise à l’échelle, et affectez le résultat àpr.without.scaling. - Utilisez
biplot()pour tracer les deux modèles (un à la fois) et comparez leurs résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Mean of each variable
colMeans(pokemon)
# Standard deviation of each variable
apply(pokemon, 2, sd)
# PCA model with scaling: pr.with.scaling
# PCA model without scaling: pr.without.scaling
# Create biplots of both for comparison