Afstandsmatrix en dendrogram
Een eenvoudige manier om woordclustering te doen is met een dendrogram op je term-documentmatrix. Zodra je een TDM hebt, kun je dist() aanroepen om de verschillen tussen elke rij van de matrix te berekenen.
Vervolgens roep je hclust() aan om clusteranalyse uit te voeren op de ongelijkheden van de afstandsmatrix. Tot slot kun je de afstanden in woordfrequenties visualiseren met een dendrogram en plot(). In text mining kun je vaak interessante inzichten of woordclusters ontdekken op basis van een dendrogram.
Kijk naar de tabel met jaarlijkse neerslag die je in de vorige video zag. Cleveland en Portland hebben evenveel neerslag, dus hun afstand is 0. Je verwacht waarschijnlijk dat deze twee steden een cluster vormen en dat New Orleans apart staat, omdat het veel meer regen krijgt.
city rainfall
Cleveland 39.14
Portland 39.14
Boston 43.77
New Orleans 62.45
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
Het data frame rain is al voor je geladen in je werkruimte.
- Maak
dist_raindoor de functiedist()te gebruiken op de waarden in de tweede kolom vanrain. - Print de matrix
dist_rainnaar de console. - Maak
hcdoor een clusteranalyse uit te voeren methclust()opdist_rain. plot()het objecthcmetlabels = rain$cityom de stedennamen toe te voegen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create dist_rain
___ <- ___(___)
# View the distance matrix
___
# Create hc
___ <- ___(___)
# Plot hc
___(___, ___)