Spolaryzowana chmura tagów

Chmury podobieństw pokazują słowa wspólne dla różnych dokumentów. Nie pozwalają jednak zobaczyć, które z tych słów częściej pojawiają się w jednym dokumencie niż w drugim. Do tego celu służy wykres piramidalny – można go wygenerować za pomocą pyramid.plot() z pakietu plotrix.

Na początku trzeba odpowiednio przetworzyć dane. Najprościej zrobić to, konwertując je do ramki danych i korzystając z dplyr. Na podstawie macierzy liczby wystąpień słów, utworzonej przez as.matrix(tdm), należy uzyskać ramkę danych z trzema kolumnami:

Słowa zawarte w każdym dokumencie.
Liczba wystąpień tych słów w dokumencie 1.
Liczba wystąpień tych słów w dokumencie 2.

Następnie wywołaj pyramid.plot() w następujący sposób:

pyramid.plot(word_count_data$count1, word_count_data$count2, word_count_data$word)

Dostępne są też dodatkowe argumenty pozwalające poprawić wygląd wykresu.

Teraz przeanalizujesz słowa, które często pojawiają się w tweetach o chardonnay, ale rzadko w tweetach o kawie. Zbiór all_dtm_m jest już dla ciebie przygotowany.

Przekształć all_tdm_m na obiekt tibble. Ustaw nazwy wierszy jako kolumnę o nazwie "word".
Odfiltruj wszystkie zmienne, których wartość jest większa od zera – użyj składni ~. > 0.
Dodaj kolumnę difference równą liczbie wystąpień w kolumnie chardonnay minus liczba wystąpień w kolumnie coffee.
Użyj slice_max z argumentem difference, aby uzyskać n = 25 najwyższych wartości.
Posortuj wiersze w kolejności malejącej (desc()) według kolumny difference.

ćwiczenie

Spolaryzowana chmura tagów

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie