Woordassociatie

Zoals verwacht zie je vergelijkbare thema's door de hele dendrogram. Terugschakelend naar positieve opmerkingen besluit je de belangrijkste woordgroepen te bekijken die in de wordclouds voorkwamen. Je hoopt geassocieerde termen te vinden met de functie findAssocs() uit tm. Je wilt nu iets verrassends checken, nu je weet van lange werktijden en een gebrek aan werk-privébalans.

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

Het corpus amzn_pros_corp is opgeschoond met dezelfde aangepaste functies als eerder.

Bouw een TDM met de naam amzn_p_tdm op basis van amzn_pros_corp en control = list(tokenize = tokenizer).
Maak amzn_p_m door amzn_p_tdm om te zetten naar een matrix.
Maak amzn_p_freq door rowSums() toe te passen op amzn_p_m.
Maak term_frequency met sort() op amzn_p_freq met het argument decreasing = TRUE.
Bekijk de eerste 5 bigrams met term_frequency[1:5].
Het kan je verbazen dat "fast paced" een toptterm is, omdat het negatief kan zijn in relatie tot "long hours". Bekijk de termen die het meest geassocieerd zijn met "fast paced". Gebruik findAssocs() op amzn_p_tdm om "fast paced" te onderzoeken met een drempel van 0.2.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___

Code bewerken en uitvoeren