1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Nejčastější výrazy pomocí qdap

Pokud ti nevadí vzdát se části kontroly nad přesným průběhem předzpracování, pak rychlý způsob, jak zjistit nejčastější výrazy, nabízí funkce freq_terms() z balíčku qdap.

Funkce přijímá textovou proměnnou – v našem případě vektor tweets$text. Pomocí argumentu top určíš, kolik nejčastějších výrazů se zobrazí, argument stopwords přijímá vektor stop slov k odstranění a at.least nastavuje minimální délku slova v počtu znaků. Balíček qdap má vlastní seznam stop slov, který se liší od toho v tm. V tomto cvičení si ukážeme, jak použít oba seznamy a porovnat výsledky.

Základní vizualizaci výsledků vytvoříš snadno – stačí zavolat plot() na objekt vrácený funkcí freq_terms().

Pokyny 1/2

undefined XP
  • 1
    • Vytvoř proměnnou frequency pomocí funkce freq_terms() aplikované na tweets$text. Zahrň argumenty tak, aby:
      • výsledek byl omezen na 10 nejčastějších výrazů,
      • každý výraz měl alespoň tři písmena,
      • stop slova byla definována pomocí "Top200Words".
    • Zobraz plot() objektu frequency a porovnej ho s grafem z předchozího cvičení.
  • 2
    • Znovu vytvoř proměnnou frequency pomocí funkce freq_terms() aplikované na tweets$text. Zahrň tyto argumenty:
      • omez výsledek na 10 nejčastějších výrazů,
      • každý výraz musí mít alespoň tři písmena,
      • tentokrát definuj stop slova pomocí stopwords("english").
    • Zobraz plot() objektu frequency a porovnej oba grafy. Mění se některá slova v závislosti na použitém seznamu stop slov?