Clustering gerarchico dei dati del caso di studio
L'obiettivo di questo esercizio è eseguire un clustering gerarchico delle osservazioni. Ricorda dal Capitolo 2 che questo tipo di clustering non presume in anticipo il numero di gruppi naturali presenti nei dati.
Come parte della preparazione per il clustering gerarchico, si calcola la distanza tra tutte le coppie di osservazioni. Inoltre, ci sono diversi modi per collegare i cluster tra loro: i metodi di collegamento più comuni sono single, complete e average.
Questo esercizio fa parte del corso
Unsupervised Learning in R
Istruzioni dell'esercizio
Le variabili che hai creato prima, wisc.data, diagnosis, wisc.pr e pve, sono disponibili nel tuo workspace.
- Esegui lo scaling dei dati
wisc.datae assegna il risultato adata.scaled. - Calcola le distanze (euclidee) tra tutte le coppie di osservazioni nel nuovo insieme di dati scalato e assegna il risultato a
data.dist. - Crea un modello di clustering gerarchico usando il collegamento completo (complete linkage). Specifica manualmente l'argomento
methodinhclust()e assegna i risultati awisc.hclust.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Scale the wisc.data data: data.scaled
# Calculate the (Euclidean) distances: data.dist
# Create a hierarchical clustering model: wisc.hclust