Nejčastější výrazy pomocí qdap

Pokud ti nevadí vzdát se části kontroly nad přesným průběhem předzpracování, pak rychlý způsob, jak zjistit nejčastější výrazy, nabízí funkce freq_terms() z balíčku qdap.

Funkce přijímá textovou proměnnou – v našem případě vektor tweets$text. Pomocí argumentu top určíš, kolik nejčastějších výrazů se zobrazí, argument stopwords přijímá vektor stop slov k odstranění a at.least nastavuje minimální délku slova v počtu znaků. Balíček qdap má vlastní seznam stop slov, který se liší od toho v tm. V tomto cvičení si ukážeme, jak použít oba seznamy a porovnat výsledky.

Základní vizualizaci výsledků vytvoříš snadno – stačí zavolat plot() na objekt vrácený funkcí freq_terms().

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create frequency
frequency <- ___(
  ___, 
  top = ___, 
  at.least = ___, 
  stopwords = ___
)

# Make a frequency bar chart

Upravit a spustit kód