Cuestiones prácticas: escalado
En el vídeo viste que escalar los datos antes de hacer PCA cambia los resultados del modelo de PCA. Aquí, realizarás PCA con y sin escalado y luego visualizarás los resultados con biplots.
A veces conviene escalar cuando las varianzas de las variables son muy diferentes. Esto suele ocurrir cuando las variables están en unidades distintas, por ejemplo, grados Fahrenheit (temperatura) y millas (distancia). Decidir si usar escalado es un paso importante al realizar un análisis de componentes principales.
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
El mismo conjunto de datos de Pokémon está disponible en tu espacio de trabajo como pokemon, pero se ha añadido una variable nueva: Total.
- Hay código en la parte superior del editor para calcular la media y la desviación estándar de cada variable del modelo. Ejecuta ese código para ver cómo difiere la escala de las variables en los datos originales.
- Crea un modelo de PCA de
pokemoncon escalado y asigna el resultado apr.with.scaling. - Crea un modelo de PCA de
pokemonsin escalado y asigna el resultado apr.without.scaling. - Usa
biplot()para representar ambos modelos (uno cada vez) y compara sus resultados.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Mean of each variable
colMeans(pokemon)
# Standard deviation of each variable
apply(pokemon, 2, sd)
# PCA model with scaling: pr.with.scaling
# PCA model without scaling: pr.without.scaling
# Create biplots of both for comparison