1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza sentymentu w R

Connected

ćwiczenie

Porównanie słupkowego wykresu skumulowanego

Kolejnym sposobem analizy tekstu jest sprawdzenie, jaka część dokumentu(-ów) składa się ze słów pozytywnych lub negatywnych. Na przykład recenzja restauracji może zawierać pozytywne spostrzeżenia, takie jak „jedzenie było dobre", ale potem dodawać „restauracja była brudna, obsługa nieuprzejma, a parkowanie koszmarne". Warto więc wiedzieć, ile miejsca w dokumencie zajmuje język pozytywny, a ile negatywny. W tym przykładzie procent negatywny byłby wyższy niż pozytywny.

Jedną z metod jest zliczenie (count()) słów pozytywnych i negatywnych, a następnie podzielenie ich przez liczbę zidentyfikowanych słów subiektywnych. W przykładzie z recenzją restauracji „good" liczy się jako 1 słowo pozytywne, a „dirty", „rude" i „awful" – jako 3 słowa negatywne. Proste obliczenie prowadzi do wniosku, że recenzja jest w 25% pozytywna i w 75% negatywna, ponieważ łącznie wystąpiły 4 słowa subiektywne.

Zacznij od wykonania inner_join() na ujednoliconej ramce danych tidy zawierającej 4 książki: Agamemnon, Oz, Huck Finn i Moby Dick. Podobnie jak w poprzednim ćwiczeniu użyj filter() oraz grepl().

Aby użyć count(), musisz pogrupować dane według książki, a następnie według sentymentu. Na przykład wszystkie słowa pozytywne dla Agamemnona muszą być najpierw zgrupowane, a potem zliczone, żeby nie mieszać ich z wynikami dla innych książek. Na szczęście możesz przekazać wiele zmiennych bezpośrednio do count().

Instrukcje 1/3

undefined XP
    1
    2
    3
  • Wykonaj inner join all_books z leksykonem nrc.
  • Przefiltruj, aby zachować wiersze, w których kolumna sentiment zawiera "positive" lub "negative". Użyj grepl() na kolumnie sentiment bez negacji, tak aby zachować wyrażenia "positive|negative".
  • Zlicz dane według book i sentiment.