Wprowadzenie do stemmingu i uzupełniania rdzeni

Kolejnym przydatnym krokiem w przetwarzaniu tekstu jest stemming i uzupełnianie rdzeni. Stemming sprowadza wyrazy do wspólnego rdzenia, co ułatwia porównywanie dokumentów. Na przykład rdzeniem słów „computational", „computers" i „computation" jest „comput". Ponieważ jednak „comput" nie jest prawdziwym słowem, chcemy odtworzyć wyrazy tak, aby wszystkie te formy wskazywały na rozpoznawalne słowo – na przykład „computer". Ten krok odtwarzania nazywa się uzupełnianiem rdzeni.

Pakiet tm udostępnia funkcję stemDocument(), która sprowadza słowa do ich rdzeni. Funkcja ta przyjmuje wektor znaków i zwraca wektor znaków albo przyjmuje obiekt PlainTextDocument i zwraca obiekt PlainTextDocument.

Na przykład:

stemDocument(c("computational", "computers", "computation"))

zwraca "comput" "comput" "comput".

Do odtworzenia rdzeni z powrotem do znanych słów użyjesz funkcji stemCompletion(). Przyjmuje ona wektor znaków oraz słownik uzupełnień. Słownik uzupełnień może być wektorem znaków lub obiektem Corpus. W naszym przykładzie słownik uzupełnień musi zawierać słowo „computer", aby wszystkie wystąpienia „comput" mogły zostać prawidłowo odtworzone.

Utwórz wektor o nazwie complicate, który zawiera słowa "complicated", "complication" i "complicatedly" – właśnie w tej kolejności.
Zapisz wersję complicate po stemmingu do obiektu o nazwie stem_doc.
Utwórz comp_dict zawierający jedno słowo: "complicate".
Utwórz complete_text, stosując funkcję stemCompletion() do stem_doc. Odtwórz wyrazy, używając comp_dict jako korpusu referencyjnego.
Wyświetl complete_text w konsoli.

Exercise

Wprowadzenie do stemmingu i uzupełniania rdzeni

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercise

Instructions

Exercise