1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza sentymentu w R

Connected

ćwiczenie

Chmura porównawcza

To ćwiczenie pozwoli ci zrozumieć częstotliwość występowania terminów za pomocą popularnej wizualizacji. Przejrzysz najczęściej pojawiające się słowa w zgrupowanych dokumentach pozytywnych i negatywnych. Przypomnij sobie TermDocumentMatrix all_tdm, którą wcześniej utworzyłeś. Zamiast 1000 recenzji wynajmu macierz zawiera 2 dokumenty z wszystkimi recenzjami podzielonymi według wyniku funkcji polarity().

Najwygodniej jest najpierw przekształcić TDM na macierz, a następnie zmienić nazwy kolumn. Pamiętaj, że funkcję colnames() wywołuje się po lewej stronie operatora przypisania, jak pokazano poniżej.

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

Następnie posortujesz macierz, aby zobaczyć najbardziej pozytywne i negatywne słowa. Przejrzyj te terminy, bo przyda się to w ćwiczeniach podsumowujących!

Na koniec zwizualizujesz terminy przy użyciu funkcji comparison.cloud().

Instrukcje 1/2

undefined XP
    1
    2
  • Przekształć wczytaną wcześniej macierz all_tdm na macierz o nazwie all_tdm_m za pomocą as.matrix().
  • Użyj colnames() na all_tdm_m, aby nadać kolumnom nazwy c("positive", "negative").
  • Zastosuj order() do all_tdm_m[,1] z argumentem decreasing = TRUE.
  • Przejrzyj 10 najczęstszych terminów w posortowanej TDM, używając potoku (%>%), a następnie head() z n = 10.
  • Powtórz poprzednie dwa kroki dla komentarzy negatywnych. Tym razem użyj order() według drugiej kolumny, all_tdm_m[,2], z decreasing = TRUE.
  • Przejrzyj 10 najbardziej negatywnych terminów, indeksując all_tdm_m przez order_by_neg. Przekaż wynik potokiem do head() z n = 10.