Visualizza i cluster

Finora abbiamo tutto ciò che serve per rappresentare le osservazioni insieme alle ellissi che rappresentano i cluster.

Inoltre, se vogliamo assegnare ciascuna osservazione a uno dei due cluster, possiamo usare la funzione clusters() e confrontare i risultati con le etichette reali. Ricordati che, quando abbiamo usato solo la variabile Weight per fare clustering sui dati, abbiamo previsto correttamente 4500 femmine e 4556 maschi. Vediamo se riusciamo a separare meglio i cluster quando includiamo una variabile aggiuntiva.

Questo esercizio fa parte del corso

Modelli di Mixture in R

Visualizza corso

Istruzioni dell'esercizio

Usa geom_point() per creare lo scatterplot di Weight e BMI. Aggiungi a questo grafico le due ellissi salvate in ellipses_comp_number con la funzione geom_path().
Attenzione: le ellissi vanno convertite in un data frame.
Colora il cluster 1 in rosso e il cluster 2 in blu.
Stima la tabella delle frequenze tra le etichette reali nella variabile Gender e quelle previste stimate da clusters.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Plot the ellipses
gender %>% 
  ggplot(aes(x = ___, y = ___)) + ___()+
  geom_path(data = data.frame(ellipse_comp_1), aes(x=x,y=y), col = "___") +
  geom_path(data = data.frame(ellipse_comp_2), aes(x=x,y=y), col = "___")
# Check the assignments
table(gender$Gender, clusters(fit_with_cov))

Modifica ed esegui il codice