Asociace slov

Jak se dalo čekat, v dendrogramu se opakují podobná témata. Přepneš se zpátky na pozitivní komentáře a rozhodneš se prozkoumat nejčastější fráze, které se objevily ve wordcloudech. Doufáš, že pomocí funkce findAssocs() z balíčku tm najdeš související výrazy. Teď, když víš o dlouhých hodinách a absenci rovnováhy mezi prací a osobním životem, chceš zjistit, jestli tě něco překvapí.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Korpus amzn_pros_corp byl vyčištěn pomocí vlastních funkcí jako dříve.

Sestav TDM s názvem amzn_p_tdm z amzn_pros_corp s argumentem control = list(tokenize = tokenizer).
Vytvoř amzn_p_m převodem amzn_p_tdm na matici.
Vytvoř amzn_p_freq aplikováním funkce rowSums() na amzn_p_m.
Vytvoř term_frequency pomocí sort() na amzn_p_freq s argumentem decreasing = TRUE.
Prohlédni si prvních 5 bigramů pomocí term_frequency[1:5].
Možná tě překvapí, že „fast paced" patří mezi nejčastější termíny – může totiž být negativně spojený s „dlouhými hodinami". Podívej se, které výrazy jsou s „fast paced" nejúžeji spojené. Použij findAssocs() na amzn_p_tdm pro výraz "fast paced" s prahem 0.2.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___

Upravit a spustit kód