Alles bij elkaar: een tekstgebaseerde dendrogram
Tijd om je vaardigheden in te zetten en je eerste tekstgebaseerde dendrogram te maken. Onthoud: dendrogrammen reduceren informatie om je te helpen de data te begrijpen. Dat lijkt op hoe een gemiddelde je iets vertelt, maar niet alles, over een populatie. Beide kunnen misleidend zijn. Bij tekst zijn er vaak veel onzinnige clusters, maar er kunnen ook waardevolle clusters opduiken.
Een eigenaardigheid van TDM- en DTM-objecten is dat je ze eerst naar matrices moet omzetten (met as.matrix()) voordat je ze met de functie dist() kunt gebruiken.
Bij de chardonnay-tweets was je misschien verrast dat de soullegende Marvin Gaye in de word cloud verscheen. Laten we kijken of het dendrogram dat ook oppikt.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
- Maak
tweets_tdm2doorremoveSparseTerms()toe te passen optweets_tdm. Gebruiksparse = 0.975. - Maak
tdm_mdooras.matrix()optweets_tdm2te gebruiken om het naar matrixvorm om te zetten. - Maak
tweets_distmet de afstanden vantdm_mmet de functiedist(). - Maak een hiërarchisch clusterobject
hcmethclust()optweets_dist. - Maak een dendrogram met
plot()enhc.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create tweets_tdm2
___ <- ___(___, ___)
# Create tdm_m
___ <- ___(___)
# Create tweets_dist
___ <- ___(___)
# Create hc
___ <- ___(___)
# Plot the dendrogram
___(___)