1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do przetwarzania języka naturalnego w R

Connected

ćwiczenie

Przetwarzanie tekstu: usuwanie stop słów

Stop słowa są nieodłącznym elementem każdego tekstu. Jednak gdy chcemy określić, jak podobne są do siebie dwa fragmenty tekstu lub znaleźć w nim przewodnie tematy, stop słowa mogą utrudniać analizę. W pierwszym rozdziale książki Folwark Zwierzęcy znajduje się zaledwie 2636 słów, a prawie 200 z nich to słowo "the".

Z reguły „the" nie wnosi niczego wartościowego do projektów analizy tekstu. W tym ćwiczeniu usuniesz stop słowa z pierwszego rozdziału Folwarku Zwierzęcego.

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Dokonaj tokenizacji tekstu z kolumny text_column na pojedyncze wyrazy.