Wortassoziation

Wie erwartet siehst du im gesamten Dendrogramm ähnliche Themen. Zurück bei den positiven Kommentaren möchtest du nun die wichtigsten Phrasen untersuchen, die in den Wordclouds aufgetaucht sind. Du hoffst, mit der Funktion findAssocs() aus tm zugehörige Begriffe zu finden. Nachdem du von langen Arbeitszeiten und mangelnder Work‑Life‑Balance erfahren hast, willst du jetzt gezielt nach etwas Überraschendem suchen.

Diese Übung ist Teil des Kurses

<Kurs>Text Mining mit Bag-of-Words in R</Kurs>

Kurs ansehen

Übungsanweisungen

Das Korpus amzn_pros_corp wurde wie zuvor mit den benutzerdefinierten Funktionen bereinigt.

Erstelle aus amzn_pros_corp eine TDM namens amzn_p_tdm mit control = list(tokenize = tokenizer).
Erzeuge amzn_p_m, indem du amzn_p_tdm in eine Matrix umwandelst.
Erzeuge amzn_p_freq, indem du rowSums() auf amzn_p_m anwendest.
Erzeuge term_frequency, indem du sort() auf amzn_p_freq mit dem Argument decreasing = TRUE anwendest.
Untersuche die ersten 5 Bigramme mit term_frequency[1:5].
Möglicherweise überrascht dich "fast paced" als Top‑Begriff, da es negativ im Zusammenhang mit "long hours" stehen könnte. Sieh dir die am stärksten mit "fast paced" assoziierten Begriffe an. Verwende findAssocs() auf amzn_p_tdm, um "fast paced" mit einem Cutoff von 0.2 zu untersuchen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___

Code bearbeiten und ausführen