1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do analizy tekstu w R

Connected

ćwiczenie

Czyszczenie i zliczanie

Usuń słowa stopu, aby zbadać treść tweetów z linii lotniczych zaklasyfikowanych jako skargi w zbiorze twitter_data.

Instrukcje

100 XP
  • Przeprowadź tokenizację tweetów w zbiorze twitter_data. Nadaj kolumnie z tokenizowanymi słowami nazwę word.
  • Usuń domyślne słowa stopu z tokenizowanego zbioru twitter_data.
  • Odfiltruj dane tak, aby zachować tylko skargi.
  • Oblicz liczbę wystąpień słów na podstawie oczyszczonego, tokenizowanego tekstu i posortuj wyniki malejąco według liczby wystąpień.