Questões práticas: padronização (scaling)
Você viu no vídeo que padronizar os dados antes de fazer PCA altera os resultados do modelo de PCA. Aqui, você vai executar a PCA com e sem padronização e depois visualizar os resultados usando biplots.
Às vezes, a padronização é adequada quando as variâncias das variáveis são substancialmente diferentes. Isso é comum quando as variáveis têm unidades de medida diferentes, por exemplo, graus Fahrenheit (temperatura) e milhas (distância). Decidir usar padronização é uma etapa importante ao realizar uma análise de componentes principais.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
O mesmo conjunto de dados de Pokemon está disponível no seu workspace como pokemon, mas uma nova variável foi adicionada: Total.
- Há um código no topo do editor para calcular a média e o desvio padrão de cada variável no modelo. Execute esse código para ver como a escala das variáveis difere nos dados originais.
- Crie um modelo de PCA de
pokemoncom padronização, atribuindo o resultado apr.with.scaling. - Crie um modelo de PCA de
pokemonsem padronização, atribuindo o resultado apr.without.scaling. - Use
biplot()para plotar ambos os modelos (um de cada vez) e compare suas saídas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Mean of each variable
colMeans(pokemon)
# Standard deviation of each variable
apply(pokemon, 2, sd)
# PCA model with scaling: pr.with.scaling
# PCA model without scaling: pr.without.scaling
# Create biplots of both for comparison