1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Analýza dat ze sociálních médií v R

Connected

cvičení

Odstranění stop slov a nadbytečných mezer

Korpus textu obvykle obsahuje spoustu běžných slov jako „a", „an", „the", „of" nebo „but". V oblasti zpracování přirozeného jazyka se těmto slovům říká stop slova.

Stop slova se při zpracování textu většinou odstraňují, aby bylo možné soustředit se na důležitější slova v korpusu a získat z nich užitečné poznatky.

Po odstranění speciálních znaků, interpunkce, čísel a stop slov vznikají v korpusu také nadbytečné mezery – i těch je potřeba se zbavit.

Korpus, který jsi vytvořil/a v předchozím cvičení, je předem načtený jako twt_corpus_lwr.

Knihovna tm je pro toto cvičení předem načtena.

Pokyny 1/2

undefined XP
    1
    2
  • Odstraň anglická stop slova z korpusu twt_corpus_lwr pomocí funkce tm_map().