Interpretar resultados de PCA

Ahora vas a usar algunas visualizaciones para entender mejor tu modelo de PCA. Ya viste una de ellas, el biplot, en un capítulo anterior.

Te encontrarás con desafíos habituales al usar biplots con datos reales que tienen un número no trivial de observaciones y variables, y después verás visualizaciones alternativas. Te animamos a que pruebes con visualizaciones adicionales antes de pasar al siguiente ejercicio.

Este ejercicio forma parte del curso

Unsupervised Learning in R

Ver curso

Instrucciones del ejercicio

Las variables que creaste antes, wisc.data, diagnosis y wisc.pr, siguen disponibles.

Crea un biplot de los datos de wisc.pr. ¿Qué te llama la atención de este gráfico? ¿Es fácil o difícil de interpretar? ¿Por qué?
Ejecuta el código para hacer un diagrama de dispersión de cada observación según las componentes principales 1 y 2, coloreando los puntos por el diagnóstico.
Repite lo mismo para las componentes principales 1 y 3. ¿Qué observas en estos gráficos?

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create a biplot of wisc.pr


# Scatter plot observations by components 1 and 2
plot(wisc.pr$___[, c(1, 2)], col = (diagnosis + 1), 
     xlab = "PC1", ylab = "PC2")

# Repeat for components 1 and 3
plot(___, col = (diagnosis + 1), 
     xlab = "PC1", ylab = "PC3")

# Do additional data exploration of your choosing below (optional)

Editar y ejecutar código