1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza sentymentu w R

Connected

ćwiczenie

Bing – porządkowanie polarności: zliczanie i przestawianie danych o białym wielorybie

W tym ćwiczeniu wykonasz kolejne inner_join() z użyciem leksykonu "bing".

Następnie przetransformujesz wyniki za pomocą count() z pakietu dplyr oraz pivot_wider() z pakietu tidyr, aby lepiej poznać analizowany tekst.

Funkcja pivot_wider() rozkłada dane na wiele kolumn. W tym przypadku wartości sentymentu oraz odpowiadające im wartości n reprezentują częstość występowania terminów pozytywnych i negatywnych w każdym wierszu tekstu. Użycie pivot_wider() przekształca dane tak, że każdy wiersz zawiera osobne wartości dla sentymentu pozytywnego i negatywnego – nawet jeśli wynoszą one 0.

Instrukcje

100 XP

W tej sesji R masz do dyspozycji obiekt m_dick_tidy zawierający książkę Moby Dick oraz obiekt bing z leksykonem – podobnie jak w poprzednim ćwiczeniu.

  • Wykonaj inner_join() na obiektach m_dick_tidy i bing.
    • Tak jak wcześniej, połącz kolumnę "term" z m_dick_tidy z kolumną "word" w leksykonie.
    • Zapisz wynik jako nowy obiekt moby_lex_words.
  • Utwórz kolumnę index, równą wynikowi as.numeric() zastosowanego do kolumny document. Zrób to wewnątrz mutate() zgodnie z konwencją tidyverse.
  • Utwórz obiekt moby_count, przekazując moby_lex_words potokiem do count() z argumentami sentiment, index.
  • Utwórz obiekt moby_wide, przekazując moby_count potokiem do pivot_wider(), gdzie names_from wskazuje na kolumnę sentiment, values_from na kolumnę n, a brakujące wartości są uzupełniane przez values_fill = 0.
  • Jako kolejny krok w potoku użyj arrange, aby posortować wiersze według wartości kolumny index.