1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Spolaryzowana chmura tagów

Chmury podobieństw pokazują słowa wspólne dla różnych dokumentów. Nie pozwalają jednak zobaczyć, które z tych słów częściej pojawiają się w jednym dokumencie niż w drugim. Do tego celu służy wykres piramidalny – można go wygenerować za pomocą pyramid.plot() z pakietu plotrix.

Na początku trzeba odpowiednio przetworzyć dane. Najprościej zrobić to, konwertując je do ramki danych i korzystając z dplyr. Na podstawie macierzy liczby wystąpień słów, utworzonej przez as.matrix(tdm), należy uzyskać ramkę danych z trzema kolumnami:

  • Słowa zawarte w każdym dokumencie.
  • Liczba wystąpień tych słów w dokumencie 1.
  • Liczba wystąpień tych słów w dokumencie 2.

Następnie wywołaj pyramid.plot() w następujący sposób:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Dostępne są też dodatkowe argumenty pozwalające poprawić wygląd wykresu.

Teraz przeanalizujesz słowa, które często pojawiają się w tweetach o chardonnay, ale rzadko w tweetach o kawie. Zbiór all_dtm_m jest już dla ciebie przygotowany.

Instrukcje 1/2

undefined XP
    1
    2
  • Przekształć all_tdm_m na obiekt tibble. Ustaw nazwy wierszy jako kolumnę o nazwie "word".
  • Odfiltruj wszystkie zmienne, których wartość jest większa od zera – użyj składni ~. > 0.
  • Dodaj kolumnę difference równą liczbie wystąpień w kolumnie chardonnay minus liczba wystąpień w kolumnie coffee.
  • Użyj slice_max z argumentem difference, aby uzyskać n = 25 najwyższych wartości.
  • Posortuj wiersze w kolejności malejącej (desc()) według kolumny difference.