Selezionare il numero di cluster
In questo esercizio confronterai i risultati del tuo modello di clustering gerarchico con le diagnosi reali. Normalmente, quando si esegue apprendimento unsupervised come questo, una variabile target non è disponibile. In questo dataset però l’abbiamo, quindi può essere usata per verificare le prestazioni del modello di clustering.
Quando si esegue apprendimento supervised—cioè quando cerchi di prevedere una variabile target di interesse e tale variabile è disponibile nei dati originali—usare il clustering per creare nuove feature può migliorare o meno le prestazioni del modello finale. Questo esercizio ti aiuterà a capire se, in questo caso, il clustering gerarchico fornisce una nuova feature promettente.
Questo esercizio fa parte del corso
Unsupervised Learning in R
Istruzioni dell'esercizio
wisc.data, diagnosis, wisc.pr, pve e wisc.hclust sono disponibili nel tuo workspace.
- Usa
cutree()per tagliare l’albero in modo che abbia 4 cluster. Assegna l’output alla variabilewisc.hclust.clusters. - Usa la funzione
table()per confrontare l’appartenenza ai cluster con le diagnosi reali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Cut tree so that it has 4 clusters: wisc.hclust.clusters
# Compare cluster membership to actual diagnoses