1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Asociace slov

Jak se dalo čekat, v dendrogramu se opakují podobná témata. Přepneš se zpátky na pozitivní komentáře a rozhodneš se prozkoumat nejčastější fráze, které se objevily ve wordcloudech. Doufáš, že pomocí funkce findAssocs() z balíčku tm najdeš související výrazy. Teď, když víš o dlouhých hodinách a absenci rovnováhy mezi prací a osobním životem, chceš zjistit, jestli tě něco překvapí.

Pokyny

100 XP

Korpus amzn_pros_corp byl vyčištěn pomocí vlastních funkcí jako dříve.

  • Sestav TDM s názvem amzn_p_tdm z amzn_pros_corp s argumentem control = list(tokenize = tokenizer).
  • Vytvoř amzn_p_m převodem amzn_p_tdm na matici.
  • Vytvoř amzn_p_freq aplikováním funkce rowSums() na amzn_p_m.
  • Vytvoř term_frequency pomocí sort() na amzn_p_freq s argumentem decreasing = TRUE.
  • Prohlédni si prvních 5 bigramů pomocí term_frequency[1:5].
  • Možná tě překvapí, že „fast paced" patří mezi nejčastější termíny – může totiž být negativně spojený s „dlouhými hodinami". Podívej se, které výrazy jsou s „fast paced" nejúžeji spojené. Použij findAssocs() na amzn_p_tdm pro výraz "fast paced" s prahem 0.2.