Afstandsmatrix en dendrogram

Een eenvoudige manier om woordclustering te doen is met een dendrogram op je term-documentmatrix. Zodra je een TDM hebt, kun je dist() aanroepen om de verschillen tussen elke rij van de matrix te berekenen.

Vervolgens roep je hclust() aan om clusteranalyse uit te voeren op de ongelijkheden van de afstandsmatrix. Tot slot kun je de afstanden in woordfrequenties visualiseren met een dendrogram en plot(). In text mining kun je vaak interessante inzichten of woordclusters ontdekken op basis van een dendrogram.

Kijk naar de tabel met jaarlijkse neerslag die je in de vorige video zag. Cleveland en Portland hebben evenveel neerslag, dus hun afstand is 0. Je verwacht waarschijnlijk dat deze twee steden een cluster vormen en dat New Orleans apart staat, omdat het veel meer regen krijgt.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Het data frame rain is al voor je geladen in je werkruimte.

Maak dist_rain door de functie dist() te gebruiken op de waarden in de tweede kolom van rain.
Print de matrix dist_rain naar de console.
Maak hc door een clusteranalyse uit te voeren met hclust() op dist_rain.
plot() het object hc met labels = rain$city om de stedennamen toe te voegen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)

Code bewerken en uitvoeren