Vše o stop slovech

Některá slova se v textu vyskytují často, ale nenesou téměř žádnou informaci. Říkáme jim stop slova a při analýze je obvykle chceme odstranit. Mezi běžná anglická stop slova patří například "I", "she'll", "the" apod. Balíček tm obsahuje 174 standardních anglických stop slov – v tomto cvičení si je vypíšeš!

Při vlastní analýze ale budeš pravděpodobně potřebovat tento seznam rozšířit. V našem příkladu s tweety o kávě obsahují všechny tweety slovo "coffee". Je proto důležité toto slovo odstranit spolu s běžnými stop slovy – jeho ponechání nepřidá analýze žádnou hodnotu a ve frekvenční analýze by bylo zbytečně nadhodnoceno.

Pomocí funkce c() můžeš do seznamu stop slov přidat nová slova. Například následující kód přidá slova "word1" a "word2" k výchozímu seznamu anglických stop slov:

all_stops <- c("word1", "word2", stopwords("en"))

Jakmile máš seznam stop slov připravený, použiješ funkci removeWords() na svůj text. removeWords() přijímá dva argumenty: objekt text, na který se aplikuje, a seznam slov, která mají být odstraněna.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Zobraz standardní stop slova voláním stopwords("en").
Odstraň stop slova pro angličtinu ("en") z objektu text.
Přidej slova "coffee" a "bean" ke standardním stop slovům a výsledek ulož do new_stops.
Odstraň z objektu text vlastní stop slova uložená v new_stops.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___

Upravit a spustit kód