Aspetti pratici: scaling
Ricorda dal video che il clustering di dati reali può richiedere lo scaling delle feature se hanno distribuzioni diverse. Finora in questo capitolo hai lavorato con dati sintetici che non avevano bisogno di scaling.
In questo esercizio tornerai a lavorare con dati "reali", il dataset pokemon introdotto nel primo capitolo. Osserverai la distribuzione (media e deviazione standard) di ciascuna feature, scalerai i dati di conseguenza, quindi creerai un modello di clustering gerarchico usando il metodo di complete linkage.
Questo esercizio fa parte del corso
Unsupervised Learning in R
Istruzioni dell'esercizio
I dati sono memorizzati nell'oggetto pokemon nel tuo workspace.
- Osserva la media di ogni variabile in
pokemonusando la funzionecolMeans(). - Osserva la deviazione standard di ogni variabile usando le funzioni
apply()esd(). Poiché le variabili sono le colonne della tua matrice, assicurati di specificare 2 come argomentoMARGINdiapply(). - Scala i dati
pokemonusando la funzionescale()e salva il risultato inpokemon.scaled. - Crea un modello di clustering gerarchico dei dati
pokemon.scaledusando il metodo di complete linkage. Specifica manualmente l'argomentomethode salva il risultato inhclust.pokemon.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# View column means
# View column standard deviations
# Scale the data
# Create hierarchical clustering model: hclust.pokemon