Gepolariseerde tagcloud

Commonality clouds laten woorden zien die gedeeld worden tussen documenten. Iets wat ze je niet kunnen laten zien, is in welk document die woorden juist vaker voorkomen dan in het andere. Daarvoor heb je een piramidediagram nodig; die kun je genereren met pyramid.plot() uit het plotrix-pakket.

Eerst moet je de data wat bewerken om het in de juiste vorm te krijgen. Dat gaat het makkelijkst door het om te zetten naar een data frame en dplyr te gebruiken. Gegeven een matrix met woordtellingen, zoals gemaakt door as.matrix(tdm), wil je eindigen met een data frame met drie kolommen:

De woorden die in elk document voorkomen.
De tellingen van die woorden uit document 1.
De tellingen van die woorden uit document 2.

Gebruik daarna pyramid.plot() met

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Er zijn extra argumenten beschikbaar om de vormgeving van de plot te verbeteren.

Nu ga je woorden verkennen die vaak voorkomen in chardonnay-tweets, maar zeldzaam zijn in coffee-tweets. all_dtm_m is al voor je aangemaakt.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

top25_df <- all_tdm_m %>%
  # Convert to data frame
  as_tibble(rownames = "___") %>% 
  # Keep rows where word appears everywhere
  filter(if_all(everything(), ___) %>% 
  # Get difference in counts
  mutate(difference = ___) %>% 
  # Keep rows with biggest difference
  slice_max(___,  n = ___) %>% 
  # Arrange by descending difference
  arrange(___(___))

Code bewerken en uitvoeren