1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Przetwarzanie tekstu: stemming

Rdzeń słowa jest często ważniejszy niż jego końcówka – szczególnie w analizie tekstu. Książka „Folwark zwierzęcy" jest oczywiście o zwierzętach. Jednak informacja, że słowo animal's pojawia się w niej 248 razy, a animal – 107 razy, może nie być przydatna w analizie.

tidy_animal_farm zawiera tibble ze słowami z „Folwarku zwierzęcego" po tokenizacji i usunięciu stop words. Następnym krokiem jest zastosowanie stemmingu i sprawdzenie wyników.

Instrukcje

100 XP
  • Użyj pakietów dplyr i SnowballC, aby przeprowadzić stemming słów z tidy_animal_farm.
  • Wyświetl stare częstotliwości słów z tidy_animal_farm.
  • Wyświetl nowe częstotliwości słów z stemmed_animal_farm.