Tworzenie korpusów na podstawie polaryzacji

W tym ćwiczeniu wykonasz krok 3 procesu eksploracji tekstu. Choć qdap nie jest pakietem z rodziny tidy, użyjesz funkcji mutate(), aby dodać nową kolumnę na podstawie listy polarity zawierającej wyniki całkowitej polaryzacji (to podpowiedź). W rozdziale 3 korzystaliśmy z własnej funkcji pol_subsections opartej wyłącznie na podstawowym R. Tutaj, zgodnie z zasadami tidy, używamy filter() oraz wprowadzamy pull(). Funkcja pull() działa podobnie jak [[ – wyodrębnia pojedynczą zmienną.

Po podziale komentarzy łączysz wszystkie pozytywne i negatywne opinie w dwa większe dokumenty, reprezentujące zbiory słów z pozytywnych i negatywnych recenzji wynajmu.

Na koniec utworzysz ważoną metodą TF-IDF (Term Frequency Inverse Document Frequency) macierz Term-Document Matrix (TDM). Ponieważ kod ćwiczenia zaczyna się od struktury tidy, niektóre funkcje z pakietu tm są używane razem z operatorem %>%, aby zachować spójny styl. Jeśli podstawy pakietu tm nie są ci znane, zapoznaj się z kursem Text Mining with Bag-of-Words in R. Zamiast zliczać częstość występowania słów, wartości w TDM są „karane" za nadużywane wyrazy, co pomaga ograniczyć mało informatywne słowa.

Pobierz pozytywne komentarze.
- Użyj mutate(), aby dodać kolumnę polarity równą bos_pol$all$polarity.
- Użyj filter(), aby zachować wiersze, w których polarity jest większe od zera.
- Użyj pull(), aby wyodrębnić kolumnę comments. (Przekaż nazwę kolumny bez cudzysłowów.)
- Połącz wyniki w jeden ciąg znaków rozdzielony spacjami za pomocą paste(), przekazując collapse = " ".

ćwiczenie

Tworzenie korpusów na podstawie polaryzacji

Instrukcje 1/4

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/4

ćwiczenie