Visualiza los clústeres

Hasta ahora, ya tenemos todo lo necesario para representar las observaciones junto con las elipses que representan los clústeres.

Además, si queremos asignar cada observación a uno de los dos clústeres, podemos usar la función clusters() y comparar los resultados con las etiquetas reales. Recuerda que, cuando usamos solo la variable Weight para agrupar los datos, predijimos correctamente 4500 mujeres y 4556 hombres. Veamos si podemos separar mejor los clústeres al incorporar una variable adicional.

Este ejercicio forma parte del curso

Modelos de mezcla en R

Ver curso

Instrucciones del ejercicio

Usa geom_point() para crear el diagrama de dispersión de Weight y BMI. Añade a este gráfico las dos elipses guardadas en ellipses_comp_number con la función geom_path().
Ten en cuenta que las elipses deben transformarse en un data frame.
Colorea el clúster 1 en rojo y el clúster 2 en azul.
Calcula la tabla de frecuencias que compare las etiquetas reales almacenadas en la variable Gender con las predicciones estimadas por clusters.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Plot the ellipses
gender %>% 
  ggplot(aes(x = ___, y = ___)) + ___()+
  geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
  geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))

Editar y ejecutar código