Explora los datos de género
El conjunto gender contiene Weight, Height e índices de BMI de 10.000 personas. Los datos originales tienen una etiqueta Gender para 5.000 personas que se identifican como mujeres y otras 5.000 como hombres. Estas etiquetas serán útiles más adelante para comprobar qué tan bien funciona el clustering frente a las etiquetas reales. Sin embargo, en este subconjunto del conjunto de datos no se proporcionan etiquetas.
El conjunto gender_with_probs también incluye las probabilidades de pertenencia de cada punto de datos a un clúster. Como nos interesan dos clústeres, las probabilidades cercanas a 1 se refieren a un clúster y las cercanas a 0 al otro.
El objetivo de este ejercicio es echar un vistazo a cómo se ve un conjunto de datos típico de clustering antes y después del proceso de clustering.
Este ejercicio forma parte del curso
Modelos de mezcla en R
Instrucciones del ejercicio
- Usa la función
headpara ver las primeras 6 observaciones degender. - Usa la función
headpara ver las primeras 6 observaciones degender_with_probs. - Haz un diagrama de dispersión con
Weighten el eje x yBMIen el eje y. Colorea los puntos según su probabilidad.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Have a look to gender (before clustering)
head(___)
# Have a look to gender_with_probs (after clustering)
head(___)
# Scatterplot with probabilities
gender_with_probs %>%
ggplot(aes(x = ___, y = ___, col = ___))+
geom_point(alpha = 0.5)