Clustering sui risultati della PCA
In questo esercizio finale, metterai insieme diversi passaggi usati in precedenza e, così facendo, sperimenterai un po’ della creatività tipica dell’unsupervised learning.
Ricorda dagli esercizi precedenti che il modello PCA richiedeva molte meno feature per descrivere l’80% e il 95% della variabilità dei dati. Oltre a normalizzare i dati e potenzialmente evitare l’overfitting, la PCA rende le variabili non correlate, migliorando talvolta le prestazioni di altre tecniche di modellazione.
Vediamo se la PCA migliora o peggiora le prestazioni del clustering gerarchico.
Questo esercizio fa parte del corso
Unsupervised Learning in R
Istruzioni dell'esercizio
wisc.pr, diagnosis, wisc.hclust.clusters e wisc.km sono ancora disponibili nel tuo workspace.
- Usando il numero minimo di componenti principali necessario per descrivere almeno il 90% della variabilità nei dati, crea un modello di clustering gerarchico con complete linkage. Assegna i risultati a
wisc.pr.hclust. - Taglia questo modello di clustering gerarchico in 4 cluster e assegna i risultati a
wisc.pr.hclust.clusters. - Usando
table(), confronta i risultati del nuovo modello di clustering gerarchico con le diagnosi reali. Quanto bene il nuovo modello con quattro cluster separa le due diagnosi? - Quanto bene si comportano, in termini di separazione delle diagnosi, i modelli k-means e di clustering gerarchico che hai creato negli esercizi precedenti? Anche qui, usa la funzione
table()per confrontare l’output di ciascun modello con il vettore che contiene le diagnosi reali.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a hierarchical clustering model: wisc.pr.hclust
wisc.pr.hclust <- ___(dist(wisc.pr$___[, ___:___]), method = ___)
# Cut model into 4 clusters: wisc.pr.hclust.clusters
# Compare to actual diagnoses
# Compare to k-means and hierarchical