Porównanie słupkowego wykresu skumulowanego

Kolejnym sposobem analizy tekstu jest sprawdzenie, jaka część dokumentu(-ów) składa się ze słów pozytywnych lub negatywnych. Na przykład recenzja restauracji może zawierać pozytywne spostrzeżenia, takie jak „jedzenie było dobre", ale potem dodawać „restauracja była brudna, obsługa nieuprzejma, a parkowanie koszmarne". Warto więc wiedzieć, ile miejsca w dokumencie zajmuje język pozytywny, a ile negatywny. W tym przykładzie procent negatywny byłby wyższy niż pozytywny.

Jedną z metod jest zliczenie (count()) słów pozytywnych i negatywnych, a następnie podzielenie ich przez liczbę zidentyfikowanych słów subiektywnych. W przykładzie z recenzją restauracji „good" liczy się jako 1 słowo pozytywne, a „dirty", „rude" i „awful" – jako 3 słowa negatywne. Proste obliczenie prowadzi do wniosku, że recenzja jest w 25% pozytywna i w 75% negatywna, ponieważ łącznie wystąpiły 4 słowa subiektywne.

Zacznij od wykonania inner_join() na ujednoliconej ramce danych tidy zawierającej 4 książki: Agamemnon, Oz, Huck Finn i Moby Dick. Podobnie jak w poprzednim ćwiczeniu użyj filter() oraz grepl().

Aby użyć count(), musisz pogrupować dane według książki, a następnie według sentymentu. Na przykład wszystkie słowa pozytywne dla Agamemnona muszą być najpierw zgrupowane, a potem zliczone, żeby nie mieszać ich z wynikami dla innych książek. Na szczęście możesz przekazać wiele zmiennych bezpośrednio do count().

Wykonaj inner join all_books z leksykonem nrc.
Przefiltruj, aby zachować wiersze, w których kolumna sentiment zawiera "positive" lub "negative". Użyj grepl() na kolumnie sentiment bez negacji, tak aby zachować wyrażenia "positive|negative".
Zlicz dane według book i sentiment.

ćwiczenie

Porównanie słupkowego wykresu skumulowanego

Instrukcje 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/3

ćwiczenie