Praktische zaken: schalen
Je hebt in de video gezien dat het clusteren van echte data kan vereisen dat je kenmerken schaalt als ze verschillende verdelingen hebben. Tot nu toe in dit hoofdstuk werkte je met synthetische data die niet geschaald hoefde te worden.
In deze oefening ga je terug naar "echte" data: de pokemon-gegevensset uit het eerste hoofdstuk. Je bekijkt de verdeling (gemiddelde en standaarddeviatie) van elk kenmerk, schaalt de data daarop, en maakt daarna een hiërarchisch clusteringmodel met de complete-linkage-methode.
Deze oefening maakt deel uit van de cursus
Unsupervised learning in R
Oefeninstructies
De data staat in het object pokemon in je werkruimte.
- Bekijk het gemiddelde van elke variabele in
pokemonmet de functiecolMeans(). - Bekijk de standaarddeviatie van elke variabele met de functies
apply()ensd(). Omdat de variabelen de kolommen van je matrix zijn, geef je 2 op als deMARGIN-argumentwaarde voorapply(). - Schaal de
pokemon-data met de functiescale()en sla het resultaat op inpokemon.scaled. - Maak een hiërarchisch clusteringmodel van de
pokemon.scaled-data met de complete-linkage-methode. Geef het argumentmethodhandmatig op en sla het resultaat op inhclust.pokemon.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# View column means
# View column standard deviations
# Scale the data
# Create hierarchical clustering model: hclust.pokemon