Interpretando resultados de PCA
Agora você vai usar algumas visualizações para entender melhor seu modelo de PCA. Você já foi apresentado a uma dessas visualizações, o biplot, em um capítulo anterior.
Você vai esbarrar em desafios comuns ao usar biplots em dados do mundo real com um número não trivial de observações e variáveis e, em seguida, vai explorar visualizações alternativas. Recomendamos que você experimente outras visualizações antes de seguir para o próximo exercício.
Este exercício faz parte do curso
Aprendizado não supervisionado em R
Instruções do exercício
As variáveis que você criou antes, wisc.data, diagnosis e wisc.pr, ainda estão disponíveis.
- Crie um biplot dos dados de
wisc.pr. O que chama sua atenção nesse gráfico? É fácil ou difícil de entender? Por quê? - Execute o código para fazer um gráfico de dispersão de cada observação pelos componentes principais 1 e 2, colorindo os pontos pelo diagnóstico.
- Repita o mesmo para os componentes principais 1 e 3. O que você observa nesses gráficos?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a biplot of wisc.pr
# Scatter plot observations by components 1 and 2
plot(wisc.pr$___[, c(1, 2)], col = (diagnosis + 1),
xlab = "PC1", ylab = "PC2")
# Repeat for components 1 and 3
plot(___, col = (diagnosis + 1),
xlab = "PC1", ylab = "PC3")
# Do additional data exploration of your choosing below (optional)