Praktische zaken: schalen

Je hebt in de video gezien dat het clusteren van echte data kan vereisen dat je kenmerken schaalt als ze verschillende verdelingen hebben. Tot nu toe in dit hoofdstuk werkte je met synthetische data die niet geschaald hoefde te worden.

In deze oefening ga je terug naar "echte" data: de pokemon-gegevensset uit het eerste hoofdstuk. Je bekijkt de verdeling (gemiddelde en standaarddeviatie) van elk kenmerk, schaalt de data daarop, en maakt daarna een hiërarchisch clusteringmodel met de complete-linkage-methode.

Deze oefening maakt deel uit van de cursus

Unsupervised learning in R

Bekijk cursus

Oefeninstructies

De data staat in het object pokemon in je werkruimte.

Bekijk het gemiddelde van elke variabele in pokemon met de functie colMeans().
Bekijk de standaarddeviatie van elke variabele met de functies apply() en sd(). Omdat de variabelen de kolommen van je matrix zijn, geef je 2 op als de MARGIN-argumentwaarde voor apply().
Schaal de pokemon-data met de functie scale() en sla het resultaat op in pokemon.scaled.
Maak een hiërarchisch clusteringmodel van de pokemon.scaled-data met de complete-linkage-methode. Geef het argument method handmatig op en sla het resultaat op in hclust.pokemon.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# View column means


# View column standard deviations


# Scale the data


# Create hierarchical clustering model: hclust.pokemon

Code bewerken en uitvoeren