Aspetti pratici: scaling

Ricorda dal video che il clustering di dati reali può richiedere lo scaling delle feature se hanno distribuzioni diverse. Finora in questo capitolo hai lavorato con dati sintetici che non avevano bisogno di scaling.

In questo esercizio tornerai a lavorare con dati "reali", il dataset pokemon introdotto nel primo capitolo. Osserverai la distribuzione (media e deviazione standard) di ciascuna feature, scalerai i dati di conseguenza, quindi creerai un modello di clustering gerarchico usando il metodo di complete linkage.

Questo esercizio fa parte del corso

Unsupervised Learning in R

Visualizza corso

Istruzioni dell'esercizio

I dati sono memorizzati nell'oggetto pokemon nel tuo workspace.

Osserva la media di ogni variabile in pokemon usando la funzione colMeans().
Osserva la deviazione standard di ogni variabile usando le funzioni apply() e sd(). Poiché le variabili sono le colonne della tua matrice, assicurati di specificare 2 come argomento MARGIN di apply().
Scala i dati pokemon usando la funzione scale() e salva il risultato in pokemon.scaled.
Crea un modello di clustering gerarchico dei dati pokemon.scaled usando il metodo di complete linkage. Specifica manualmente l'argomento method e salva il risultato in hclust.pokemon.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon

Modifica ed esegui il codice