Gepolariseerde tagcloud
Commonality clouds laten woorden zien die gedeeld worden tussen documenten. Iets wat ze je niet kunnen laten zien, is in welk document die woorden juist vaker voorkomen dan in het andere. Daarvoor heb je een piramidediagram nodig; die kun je genereren met pyramid.plot() uit het plotrix-pakket.
Eerst moet je de data wat bewerken om het in de juiste vorm te krijgen. Dat gaat het makkelijkst door het om te zetten naar een data frame en dplyr te gebruiken. Gegeven een matrix met woordtellingen, zoals gemaakt door as.matrix(tdm), wil je eindigen met een data frame met drie kolommen:
- De woorden die in elk document voorkomen.
- De tellingen van die woorden uit document 1.
- De tellingen van die woorden uit document 2.
Gebruik daarna pyramid.plot() met
pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)
Er zijn extra argumenten beschikbaar om de vormgeving van de plot te verbeteren.
Nu ga je woorden verkennen die vaak voorkomen in chardonnay-tweets, maar zeldzaam zijn in coffee-tweets. all_dtm_m is al voor je aangemaakt.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
top25_df <- all_tdm_m %>%
# Convert to data frame
as_tibble(rownames = "___") %>%
# Keep rows where word appears everywhere
filter(if_all(everything(), ___) %>%
# Get difference in counts
mutate(difference = ___) %>%
# Keep rows with biggest difference
slice_max(___, n = ___) %>%
# Arrange by descending difference
arrange(___(___))