1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Vše o stop slovech

Některá slova se v textu vyskytují často, ale nenesou téměř žádnou informaci. Říkáme jim stop slova a při analýze je obvykle chceme odstranit. Mezi běžná anglická stop slova patří například "I", "she'll", "the" apod. Balíček tm obsahuje 174 standardních anglických stop slov – v tomto cvičení si je vypíšeš!

Při vlastní analýze ale budeš pravděpodobně potřebovat tento seznam rozšířit. V našem příkladu s tweety o kávě obsahují všechny tweety slovo "coffee". Je proto důležité toto slovo odstranit spolu s běžnými stop slovy – jeho ponechání nepřidá analýze žádnou hodnotu a ve frekvenční analýze by bylo zbytečně nadhodnoceno.

Pomocí funkce c() můžeš do seznamu stop slov přidat nová slova. Například následující kód přidá slova "word1" a "word2" k výchozímu seznamu anglických stop slov:

all_stops <- c("word1", "word2", stopwords("en"))

Jakmile máš seznam stop slov připravený, použiješ funkci removeWords() na svůj text. removeWords() přijímá dva argumenty: objekt text, na který se aplikuje, a seznam slov, která mají být odstraněna.

Pokyny

100 XP
  • Zobraz standardní stop slova voláním stopwords("en").
  • Odstraň stop slova pro angličtinu ("en") z objektu text.
  • Přidej slova "coffee" a "bean" ke standardním stop slovům a výsledek ulož do new_stops.
  • Odstraň z objektu text vlastní stop slova uložená v new_stops.