Wortassoziation
Wie erwartet siehst du im gesamten Dendrogramm ähnliche Themen. Zurück bei den positiven Kommentaren möchtest du nun die wichtigsten Phrasen untersuchen, die in den Wordclouds aufgetaucht sind. Du hoffst, mit der Funktion findAssocs() aus tm zugehörige Begriffe zu finden. Nachdem du von langen Arbeitszeiten und mangelnder Work‑Life‑Balance erfahren hast, willst du jetzt gezielt nach etwas Überraschendem suchen.
Diese Übung ist Teil des Kurses
Text Mining mit Bag-of-Words in R
Anleitung zur Übung
Das Korpus amzn_pros_corp wurde wie zuvor mit den benutzerdefinierten Funktionen bereinigt.
- Erstelle aus
amzn_pros_corpeine TDM namensamzn_p_tdmmitcontrol = list(tokenize = tokenizer). - Erzeuge
amzn_p_m, indem duamzn_p_tdmin eine Matrix umwandelst. - Erzeuge
amzn_p_freq, indem durowSums()aufamzn_p_manwendest. - Erzeuge
term_frequency, indem dusort()aufamzn_p_freqmit dem Argumentdecreasing = TRUEanwendest. - Untersuche die ersten 5 Bigramme mit
term_frequency[1:5]. - Möglicherweise überrascht dich "fast paced" als Top‑Begriff, da es negativ im Zusammenhang mit "long hours" stehen könnte. Sieh dir die am stärksten mit "fast paced" assoziierten Begriffe an. Verwende
findAssocs()aufamzn_p_tdm, um"fast paced"mit einem Cutoff von0.2zu untersuchen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___