1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Úvod do stemmingu a doplňování kmenů

Dalším užitečným krokem předzpracování textu je stemming a doplňování kmenů. Stemming redukuje slova na jejich základní tvar, čímž sjednocuje různé tvary napříč dokumenty. Například kmen slov "computational", "computers" a "computation" je "comput". Jenže "comput" není skutečné slovo, a proto chceme původní slova rekonstruovat tak, aby se všechny tyto tvary odkazovaly na rozpoznatelné slovo – například "computer". Tento rekonstrukční krok se nazývá doplňování kmenů.

Balíček tm nabízí funkci stemDocument(), která slovo převede na jeho kořen. Funkce přijímá buď znakový vektor a vrací znakový vektor, nebo přijímá objekt PlainTextDocument a vrací PlainTextDocument.

Například:

stemDocument(c("computational", "computers", "computation"))

vrátí "comput" "comput" "comput".

K rekonstrukci těchto kořenů zpět na srozumitelná slova použiješ funkci stemCompletion(). Ta přijímá znakový vektor a doplňovací slovník. Slovník může být znakový vektor nebo objekt Corpus. V každém případě musí obsahovat slovo "computer", aby bylo možné všechny výskyty "comput" správně rekonstruovat.

Pokyny

100 XP
  • Vytvoř vektor s názvem complicate obsahující slova "complicated", "complication" a "complicatedly" v tomto pořadí.
  • Výsledek stemmingu vektoru complicate ulož do objektu stem_doc.
  • Vytvoř comp_dict obsahující jediné slovo: "complicate".
  • Vytvoř complete_text tak, že na stem_doc aplikuješ funkci stemCompletion(). Jako referenční korpus použij comp_dict.
  • Vypiš complete_text do konzole.