ComenzarEmpieza gratis

Explora los datos de género

El conjunto gender contiene Weight, Height e índices de BMI de 10.000 personas. Los datos originales tienen una etiqueta Gender para 5.000 personas que se identifican como mujeres y otras 5.000 como hombres. Estas etiquetas serán útiles más adelante para comprobar qué tan bien funciona el clustering frente a las etiquetas reales. Sin embargo, en este subconjunto del conjunto de datos no se proporcionan etiquetas.

El conjunto gender_with_probs también incluye las probabilidades de pertenencia de cada punto de datos a un clúster. Como nos interesan dos clústeres, las probabilidades cercanas a 1 se refieren a un clúster y las cercanas a 0 al otro.

El objetivo de este ejercicio es echar un vistazo a cómo se ve un conjunto de datos típico de clustering antes y después del proceso de clustering.

Este ejercicio forma parte del curso

Modelos de mezcla en R

Ver curso

Instrucciones del ejercicio

  • Usa la función head para ver las primeras 6 observaciones de gender.
  • Usa la función head para ver las primeras 6 observaciones de gender_with_probs.
  • Haz un diagrama de dispersión con Weight en el eje x y BMI en el eje y. Colorea los puntos según su probabilidad.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)
Editar y ejecutar código