Visualizza i cluster
Finora abbiamo tutto ciò che serve per rappresentare le osservazioni insieme alle ellissi che rappresentano i cluster.
Inoltre, se vogliamo assegnare ciascuna osservazione a uno dei due cluster, possiamo usare la funzione clusters() e confrontare i risultati con le etichette reali. Ricordati che, quando abbiamo usato solo la variabile Weight per fare clustering sui dati, abbiamo previsto correttamente 4500 femmine e 4556 maschi. Vediamo se riusciamo a separare meglio i cluster quando includiamo una variabile aggiuntiva.
Questo esercizio fa parte del corso
Modelli di Mixture in R
Istruzioni dell'esercizio
- Usa
geom_point()per creare lo scatterplot diWeighteBMI. Aggiungi a questo grafico le due ellissi salvate inellipses_comp_numbercon la funzionegeom_path(). - Attenzione: le ellissi vanno convertite in un data frame.
- Colora il cluster 1 in rosso e il cluster 2 in blu.
- Stima la tabella delle frequenze tra le etichette reali nella variabile
Gendere quelle previste stimate daclusters.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Plot the ellipses
gender %>%
ggplot(aes(x = ___, y = ___)) + ___()+
geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))