1. Learn
  2. /
  3. Kurser
  4. /
  5. Analiza danych z mediów społecznościowych w R

Connected

övning

Usuń stop words i dodatkowe spacje

Korpus tekstu zazwyczaj zawiera wiele popularnych słów, takich jak "a", "an", "the", "of" czy "but". W przetwarzaniu języka naturalnego nazywamy je stop words.

Stop words są zwykle usuwane podczas przetwarzania tekstu, aby skupić się na ważniejszych słowach w korpusie i wyciągać z nich wnioski.

Po usunięciu znaków specjalnych, interpunkcji, cyfr i stop words w korpusie mogą pojawić się dodatkowe spacje – trzeba je również usunąć.

Korpus utworzony w poprzednim ćwiczeniu został wczytany jako twt_corpus_lwr.

Biblioteka tm jest już wczytana dla tego ćwiczenia.

Instruktioner 1/2

undefined XP
    1
    2
  • Usuń angielskie stop words z korpusu twt_corpus_lwr, korzystając z funkcji tm_map().