Úvod do stemmingu a doplňování kmenů

Dalším užitečným krokem předzpracování textu je stemming a doplňování kmenů. Stemming redukuje slova na jejich základní tvar, čímž sjednocuje různé tvary napříč dokumenty. Například kmen slov "computational", "computers" a "computation" je "comput". Jenže "comput" není skutečné slovo, a proto chceme původní slova rekonstruovat tak, aby se všechny tyto tvary odkazovaly na rozpoznatelné slovo – například "computer". Tento rekonstrukční krok se nazývá doplňování kmenů.

Balíček tm nabízí funkci stemDocument(), která slovo převede na jeho kořen. Funkce přijímá buď znakový vektor a vrací znakový vektor, nebo přijímá objekt PlainTextDocument a vrací PlainTextDocument.

Například:

stemDocument(c("computational", "computers", "computation"))

vrátí "comput" "comput" "comput".

K rekonstrukci těchto kořenů zpět na srozumitelná slova použiješ funkci stemCompletion(). Ta přijímá znakový vektor a doplňovací slovník. Slovník může být znakový vektor nebo objekt Corpus. V každém případě musí obsahovat slovo "computer", aby bylo možné všechny výskyty "comput" správně rekonstruovat.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Vytvoř vektor s názvem complicate obsahující slova "complicated", "complication" a "complicatedly" v tomto pořadí.
Výsledek stemmingu vektoru complicate ulož do objektu stem_doc.
Vytvoř comp_dict obsahující jediné slovo: "complicate".
Vytvoř complete_text tak, že na stem_doc aplikuješ funkci stemCompletion(). Jako referenční korpus použij comp_dict.
Vypiš complete_text do konzole.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text

Upravit a spustit kód