Visualiza los clústeres
Hasta ahora, ya tenemos todo lo necesario para representar las observaciones junto con las elipses que representan los clústeres.
Además, si queremos asignar cada observación a uno de los dos clústeres, podemos usar la función clusters() y comparar los resultados con las etiquetas reales. Recuerda que, cuando usamos solo la variable Weight para agrupar los datos, predijimos correctamente 4500 mujeres y 4556 hombres. Veamos si podemos separar mejor los clústeres al incorporar una variable adicional.
Este ejercicio forma parte del curso
Modelos de mezcla en R
Instrucciones del ejercicio
- Usa
geom_point()para crear el diagrama de dispersión deWeightyBMI. Añade a este gráfico las dos elipses guardadas enellipses_comp_numbercon la funcióngeom_path(). - Ten en cuenta que las elipses deben transformarse en un data frame.
- Colorea el clúster 1 en rojo y el clúster 2 en azul.
- Calcula la tabla de frecuencias que compare las etiquetas reales almacenadas en la variable
Gendercon las predicciones estimadas porclusters.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Plot the ellipses
gender %>%
ggplot(aes(x = ___, y = ___)) + ___()+
geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))