Clustering gerarchico dei dati del caso di studio

L'obiettivo di questo esercizio è eseguire un clustering gerarchico delle osservazioni. Ricorda dal Capitolo 2 che questo tipo di clustering non presume in anticipo il numero di gruppi naturali presenti nei dati.

Come parte della preparazione per il clustering gerarchico, si calcola la distanza tra tutte le coppie di osservazioni. Inoltre, ci sono diversi modi per collegare i cluster tra loro: i metodi di collegamento più comuni sono single, complete e average.

Questo esercizio fa parte del corso

Unsupervised Learning in R

Visualizza corso

Istruzioni dell'esercizio

Le variabili che hai creato prima, wisc.data, diagnosis, wisc.pr e pve, sono disponibili nel tuo workspace.

Esegui lo scaling dei dati wisc.data e assegna il risultato a data.scaled.
Calcola le distanze (euclidee) tra tutte le coppie di osservazioni nel nuovo insieme di dati scalato e assegna il risultato a data.dist.
Crea un modello di clustering gerarchico usando il collegamento completo (complete linkage). Specifica manualmente l'argomento method in hclust() e assegna i risultati a wisc.hclust.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Scale the wisc.data data: data.scaled


# Calculate the (Euclidean) distances: data.dist


# Create a hierarchical clustering model: wisc.hclust

Modifica ed esegui il codice