1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Najczęstsze terminy z tm

Wiesz już, jak tworzyć macierz term-dokument oraz jej transpozycję – macierz dokument-term. Teraz wykorzystamy je jako podstawę do analizy. Żeby przeprowadzić analizę, musimy przekształcić macierz na prostą macierz, tak jak w rozdziale 1, używając as.matrix().

Wywołanie rowSums() na nowo utworzonej macierzy agreguje wszystkie terminy użyte w tekście. Po obliczeniu rowSums() możesz posortować wyniki za pomocą sort() z argumentem decreasing = TRUE, aby skupić się na najczęściej występujących terminach.

Na koniec możesz utworzyć barplot() dla 5 najczęstszych terminów z term_frequency, używając poniższego kodu.

barplot(term_frequency[1:5], col = "#C0DE25")

Oczywiście możesz zajrzeć do naszych kursów ggplot2, żeby nauczyć się jeszcze bardziej dostosowywać wykresy… :)

Instrukcje

100 XP
  • Utwórz coffee_m jako macierz na podstawie macierzy term-dokument coffee_tdm z poprzedniego rozdziału.
  • Utwórz term_frequency, stosując funkcję rowSums() na coffee_m.
  • Posortuj term_frequency w kolejności malejącej i zapisz wynik w term_frequency.
  • Użyj indeksowania za pomocą pojedynczego nawiasu kwadratowego, tzn. tylko jednego [, aby wyświetlić 10 najczęstszych terminów z term_frequency.
  • Utwórz wykres słupkowy dla 10 najczęstszych terminów.