IniziaInizia gratis

Selezionare il numero di cluster

In questo esercizio confronterai i risultati del tuo modello di clustering gerarchico con le diagnosi reali. Normalmente, quando si esegue apprendimento unsupervised come questo, una variabile target non è disponibile. In questo dataset però l’abbiamo, quindi può essere usata per verificare le prestazioni del modello di clustering.

Quando si esegue apprendimento supervised—cioè quando cerchi di prevedere una variabile target di interesse e tale variabile è disponibile nei dati originali—usare il clustering per creare nuove feature può migliorare o meno le prestazioni del modello finale. Questo esercizio ti aiuterà a capire se, in questo caso, il clustering gerarchico fornisce una nuova feature promettente.

Questo esercizio fa parte del corso

Unsupervised Learning in R

Visualizza il corso

Istruzioni dell'esercizio

wisc.data, diagnosis, wisc.pr, pve e wisc.hclust sono disponibili nel tuo workspace.

  • Usa cutree() per tagliare l’albero in modo che abbia 4 cluster. Assegna l’output alla variabile wisc.hclust.clusters.
  • Usa la funzione table() per confrontare l’appartenenza ai cluster con le diagnosi reali.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Cut tree so that it has 4 clusters: wisc.hclust.clusters


# Compare cluster membership to actual diagnoses
Modifica ed esegui il codice