ComeçarComece de graça

Questões práticas: padronização (scaling)

Você viu no vídeo que padronizar os dados antes de fazer PCA altera os resultados do modelo de PCA. Aqui, você vai executar a PCA com e sem padronização e depois visualizar os resultados usando biplots.

Às vezes, a padronização é adequada quando as variâncias das variáveis são substancialmente diferentes. Isso é comum quando as variáveis têm unidades de medida diferentes, por exemplo, graus Fahrenheit (temperatura) e milhas (distância). Decidir usar padronização é uma etapa importante ao realizar uma análise de componentes principais.

Este exercício faz parte do curso

Aprendizado não supervisionado em R

Ver curso

Instruções do exercício

O mesmo conjunto de dados de Pokemon está disponível no seu workspace como pokemon, mas uma nova variável foi adicionada: Total.

  • Há um código no topo do editor para calcular a média e o desvio padrão de cada variável no modelo. Execute esse código para ver como a escala das variáveis difere nos dados originais.
  • Crie um modelo de PCA de pokemon com padronização, atribuindo o resultado a pr.with.scaling.
  • Crie um modelo de PCA de pokemon sem padronização, atribuindo o resultado a pr.without.scaling.
  • Use biplot() para plotar ambos os modelos (um de cada vez) e compare suas saídas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Mean of each variable
colMeans(pokemon)

# Standard deviation of each variable
apply(pokemon, 2, sd)

# PCA model with scaling: pr.with.scaling


# PCA model without scaling: pr.without.scaling


# Create biplots of both for comparison

Editar e executar o código