Interpretar resultados de PCA
Ahora vas a usar algunas visualizaciones para entender mejor tu modelo de PCA. Ya viste una de ellas, el biplot, en un capítulo anterior.
Te encontrarás con desafíos habituales al usar biplots con datos reales que tienen un número no trivial de observaciones y variables, y después verás visualizaciones alternativas. Te animamos a que pruebes con visualizaciones adicionales antes de pasar al siguiente ejercicio.
Este ejercicio forma parte del curso
Unsupervised Learning in R
Instrucciones del ejercicio
Las variables que creaste antes, wisc.data, diagnosis y wisc.pr, siguen disponibles.
- Crea un biplot de los datos de
wisc.pr. ¿Qué te llama la atención de este gráfico? ¿Es fácil o difícil de interpretar? ¿Por qué? - Ejecuta el código para hacer un diagrama de dispersión de cada observación según las componentes principales 1 y 2, coloreando los puntos por el diagnóstico.
- Repite lo mismo para las componentes principales 1 y 3. ¿Qué observas en estos gráficos?
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create a biplot of wisc.pr
# Scatter plot observations by components 1 and 2
plot(wisc.pr$___[, c(1, 2)], col = (diagnosis + 1),
xlab = "PC1", ylab = "PC2")
# Repeat for components 1 and 3
plot(___, col = (diagnosis + 1),
xlab = "PC1", ylab = "PC3")
# Do additional data exploration of your choosing below (optional)