Alles bij elkaar: een tekstgebaseerde dendrogram

Tijd om je vaardigheden in te zetten en je eerste tekstgebaseerde dendrogram te maken. Onthoud: dendrogrammen reduceren informatie om je te helpen de data te begrijpen. Dat lijkt op hoe een gemiddelde je iets vertelt, maar niet alles, over een populatie. Beide kunnen misleidend zijn. Bij tekst zijn er vaak veel onzinnige clusters, maar er kunnen ook waardevolle clusters opduiken.

Een eigenaardigheid van TDM- en DTM-objecten is dat je ze eerst naar matrices moet omzetten (met as.matrix()) voordat je ze met de functie dist() kunt gebruiken.

Bij de chardonnay-tweets was je misschien verrast dat de soullegende Marvin Gaye in de word cloud verscheen. Laten we kijken of het dendrogram dat ook oppikt.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Maak tweets_tdm2 door removeSparseTerms() toe te passen op tweets_tdm. Gebruik sparse = 0.975.
Maak tdm_m door as.matrix() op tweets_tdm2 te gebruiken om het naar matrixvorm om te zetten.
Maak tweets_dist met de afstanden van tdm_m met de functie dist().
Maak een hiërarchisch clusterobject hc met hclust() op tweets_dist.
Maak een dendrogram met plot() en hc.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create tweets_tdm2
___ <- ___(___, ___)

# Create tdm_m
___ <- ___(___)

# Create tweets_dist
___ <- ___(___)

# Create hc
___ <- ___(___)

# Plot the dendrogram
___(___)

Code bewerken en uitvoeren