Maak een voor dendrogrammen geschikte TDM

Nu je de stappen voor het maken van een dendrogram begrijpt, kun je ze toepassen op tekst. Maar eerst moet je het aantal woorden in je TDM beperken met removeSparseTerms() uit tm. Waarom zou je de schaarste van de TDM/DTM willen aanpassen?

TDM's en DTM's zijn schaars: ze bevatten vooral nullen. Onthoud dat 1000 tweets kunnen leiden tot een TDM met meer dan 3000 termen! Een dendrogram dat zo vol staat, is lastig te interpreteren, zeker als je met meer tekst werkt.

In de meeste professionele contexten is een goed dendrogram gebaseerd op een TDM met 25 tot 70 termen. Meer dan 70 termen betekent vaak dat de visualisatie druk en onbegrijpelijk wordt. Andersom, met minder dan 25 termen zal je dendrogram waarschijnlijk geen relevante en inzichtelijke clusters weergeven.

Bij gebruik van removeSparseTerms() bepaalt de parameter sparse hoeveel totale termen in de TDM behouden blijven. Hoe dichter sparse bij 1 ligt, hoe meer termen worden bewaard. Deze waarde staat voor een percentage-afkap van nullen per term in de TDM.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

tweets_tdm is gemaakt op basis van de chardonnay-tweets.

Print de afmetingen van tweets_tdm naar de console.
Maak tdm1 met removeSparseTerms() met sparse = 0.95 op tweets_tdm.
Maak tdm2 met removeSparseTerms() met sparse = 0.975 op tweets_tdm.
Print tdm1 naar de console om te zien hoeveel termen er overblijven.
Print tdm2 naar de console om te zien hoeveel termen er overblijven.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print the dimensions of tweets_tdm
___

# Create tdm1
___ <- ___(___, ___)

# Create tdm2
___ <- ___(___, ___)

# Print tdm1
___

# Print tdm2
___

Code bewerken en uitvoeren