1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza sentymentu w R

Connected

ćwiczenie

Tworzenie korpusów na podstawie polaryzacji

W tym ćwiczeniu wykonasz krok 3 procesu eksploracji tekstu. Choć qdap nie jest pakietem z rodziny tidy, użyjesz funkcji mutate(), aby dodać nową kolumnę na podstawie listy polarity zawierającej wyniki całkowitej polaryzacji (to podpowiedź). W rozdziale 3 korzystaliśmy z własnej funkcji pol_subsections opartej wyłącznie na podstawowym R. Tutaj, zgodnie z zasadami tidy, używamy filter() oraz wprowadzamy pull(). Funkcja pull() działa podobnie jak [[ – wyodrębnia pojedynczą zmienną.

Po podziale komentarzy łączysz wszystkie pozytywne i negatywne opinie w dwa większe dokumenty, reprezentujące zbiory słów z pozytywnych i negatywnych recenzji wynajmu.

Na koniec utworzysz ważoną metodą TF-IDF (Term Frequency Inverse Document Frequency) macierz Term-Document Matrix (TDM). Ponieważ kod ćwiczenia zaczyna się od struktury tidy, niektóre funkcje z pakietu tm są używane razem z operatorem %>%, aby zachować spójny styl. Jeśli podstawy pakietu tm nie są ci znane, zapoznaj się z kursem Text Mining with Bag-of-Words in R. Zamiast zliczać częstość występowania słów, wartości w TDM są „karane" za nadużywane wyrazy, co pomaga ograniczyć mało informatywne słowa.

Instrukcje 1/4

undefined XP
    1
    2
    3
    4
  • Pobierz pozytywne komentarze.
    • Użyj mutate(), aby dodać kolumnę polarity równą bos_pol$all$polarity.
    • Użyj filter(), aby zachować wiersze, w których polarity jest większe od zera.
    • Użyj pull(), aby wyodrębnić kolumnę comments. (Przekaż nazwę kolumny bez cudzysłowów.)
    • Połącz wyniki w jeden ciąg znaków rozdzielony spacjami za pomocą paste(), przekazując collapse = " ".