Esplora i dati sul genere

I dati gender contengono Weight, Height e l'indice di BMI per 10.000 persone. Nei dati originali è presente un'etichetta Gender per 5.000 persone che si identificano come donne e per le altre 5.000 come uomini. Le etichette saranno utili più avanti per verificare quanto bene il clustering si confronta con le etichette reali. Tuttavia, in questo sottoinsieme dell'insieme di dati, le etichette non sono fornite.

I dati gender_with_probs contengono anche le probabilità che ciascun punto appartenga a un cluster. Poiché siamo interessati a due cluster, probabilità vicine a 1 si riferiscono a un cluster e vicine a 0 all'altro.

L'obiettivo di questo esercizio è dare un'occhiata a come appare un tipico insieme di dati per il clustering prima e dopo il clustering.

Questo esercizio fa parte del corso

Modelli di Mixture in R

Visualizza corso

Istruzioni dell'esercizio

Usa la funzione head per vedere le prime 6 osservazioni di gender.
Usa la funzione head per vedere le prime 6 osservazioni di gender_with_probs.
Crea uno scatterplot con Weight sull'asse x e BMI sull'asse y. Colora i punti in base alla loro probabilità.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Have a look to gender (before clustering)
head(___)

# Have a look to gender_with_probs (after clustering)
head(___)

# Scatterplot with probabilities
gender_with_probs %>% 
  ggplot(aes(x = ___, y = ___, col = ___))+
  geom_point(alpha = 0.5)

Modifica ed esegui il codice