Woordassociatie
Zoals verwacht zie je vergelijkbare thema's door de hele dendrogram. Terugschakelend naar positieve opmerkingen besluit je de belangrijkste woordgroepen te bekijken die in de wordclouds voorkwamen. Je hoopt geassocieerde termen te vinden met de functie findAssocs() uit tm. Je wilt nu iets verrassends checken, nu je weet van lange werktijden en een gebrek aan werk-privébalans.
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
Het corpus amzn_pros_corp is opgeschoond met dezelfde aangepaste functies als eerder.
- Bouw een TDM met de naam
amzn_p_tdmop basis vanamzn_pros_corpencontrol = list(tokenize = tokenizer). - Maak
amzn_p_mdooramzn_p_tdmom te zetten naar een matrix. - Maak
amzn_p_freqdoorrowSums()toe te passen opamzn_p_m. - Maak
term_frequencymetsort()opamzn_p_freqmet het argumentdecreasing = TRUE. - Bekijk de eerste 5 bigrams met
term_frequency[1:5]. - Het kan je verbazen dat "fast paced" een toptterm is, omdat het negatief kan zijn in relatie tot "long hours". Bekijk de termen die het meest geassocieerd zijn met "fast paced". Gebruik
findAssocs()opamzn_p_tdmom"fast paced"te onderzoeken met een drempel van0.2.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___